 To ja na koniec, koniem się nisko Mikołaj Morzy, Politechnika Poznańska w projekcie, któremu przywodzi Jan nasz zespół grupa osób, doktorantek i doktorantów z Politechniki Poznańskiej zajmuje się kwestiami uczenia maszynowego. Ja swoje 10-15 minut chciałem poświęcić właśnie na kwestie związane z sztuczną inteligencią i modelami uczenia maszynowego, dlatego że one stają się nieodłącznym elementem większości badań także w naukach społecznych. Model statystyczny, czyli model nauczony za pomocą metod sztucznej inteligencji stanowi tak naprawdę pewnego rodzaju projekcję rzeczywistości. Staramy się przybliżyć pewien wybrany mały aspekt rzeczywistości, jakiś aspekt funkcjonowania rzeczywistych bytów i procesów. Tak naprawdę ten model statystyczny jest trenowany na podstawie danych, więc on reprezentuje rzeczywistość na tyle, na ile zgodne były dane z momentu treningu. Dany z kolei nie muszą być, one oczywiście mogą sięgać daleko wstecz, ten horyzont czasowy może być tutaj bardzo długi, ale ważne jest, że modele uczenia maszynowego nie reprezentują rzeczywistości, one reprezentują tylko dane. Jeżeli dane odpowiadają rzeczywistości bardzo dobrze, jeżeli nie pojawia się dosyć daleko idący rozdziel. Po drugie, celem głównym treningu modeli statystycznych jest możliwość przewidywania projekcji na przyszłość, czy widywania na przykład wartości jakichś atrybutów, wykonania regresji czy plasifikacji, ale ta możliwość, możliwość wykonania predykcji na przyszłość jest możliwa tylko i wyłącznie przyjmując założenie, że przyszłość w jakiś sposób przypomina w przeszłość. Na ile mocne jest to założenie i jakie wiążą się z tym zagrożenia. Tu chciałem przywołać, wyjaśnić Państwu dwa główne źródła błędów, które mogą się pojawić w momencie, kiedy używamy modeli statystycznych w prowadzeniu badań naukowych. Pierwszy związany jest z kompletnym rozjechaniem się czegoś, co nazywamy funkcją biznesową i funkcją biznesowa w najprostszym ujęciu to jest to, co próbujemy zmienić w świecie. Po to właśnie wdrażany model uczenia maszynowego, jakiś model rozpoznawania obrazów, model rozpoznawania mowy czy model predykcji po to, żeby w świecie się coś zmieniło. I to, co ma się zmienić w świecie określała funkcja biznesowa. Natomiast funkcja celu to już jest czysto matematyczne sformułowanie, które steruje procesem treningu takiego modelu i to jest jakaś funkcja, którą próbujemy optymalizować, minimalizować albo maksymalizować. I najlepiej będzie to pokazać na znanym przykładzie związanym z jednym z serwisów internetowych. Otóż co jest funkcją biznesową YouTube? Na czym zarabia YouTube? Czy co chce zrobić YouTube? YouTube zarabia na reklamach. Cena reklamy zależy od długości wyświetlenia reklamy oraz tego, przy jak bardzo popularnym filmie reklama się pojawiły. Zatem, w momencie kiedy algorytm decydujący o doborze filmów pokazywanych użytkownikowi w odpowiedzi na zapytanie albo w momencie wejścia do serwisu, musi tak naprawdę starać się zoptymalizować skup to widzenia YouTube'a tą ilość pieniędzy, którą YouTube zarobi. Ale w jaki sposób ma to zrobić? Jeżeli byśmy chcieli tylko i wyłącznie maksymalizować liczbę obejrzanych reklam, to to będzie kompletnie bez sensu, ponieważ naturalny proces będzie prowadził do rekomendacji bardzo krótkich filmów. To dużo krótkich filmów oznacza dużo reklam. Więc na pewno nie. Jeżeli będziemy starali się optymalizować długość reklam, to z kolei może się okazać, że algorytm optymalizacyjny pójdzie dokładnie w drugą stronę i znajdzie optymów, w którym użytkownikowi będą pokazywane tylko bardzo długie filmy. Jeżeli będziemy starali się monetyzować reklamy poprzez pokazywanie tylko reklam przy najbardziej popularnych filmach, to pojawi się rozdźwięk pomiędzy zainteresowaniem użytkownika a treściami pokazywanymi w filmach, dlatego że przecież użytkownik nie chce oglądać dowolnych filmów, tylko te, które jego ją w jakiś sposób interesują. Twórcy YouTube'a podjęli decyzję, która w pierwszej chwili była zupełnie neutralna, ale jej skutki są katastrofalne i dotykają nas wszystkich dzisiaj. Oni mianowicie stwierdzili, że tą funkcją celu, która będzie optymalizowana i przez którą w sposób pośredni firma będzie zarabiała najwięcej pieniędzy, będzie nie maksymalizacja liczby obejrzanych reklam, nie maksymalizacja liczby obejrzanych filmów, tylko maksymalizacja czasu spędzonego przez użytkownika przed YouTube. Tylko i wyłącznie. Teraz, co mogłoby pójść źle? Skoro jedyne co to próbujemy tak naprawdę pokazywać te filmy, które najbardziej angażują użytkownika, to żeby wydłużyć czas przebywania przed YouTube'em, a w efekcie jak YouTube najwięcej jej zarobi. No efekt jest taki, że jak się okazało państwo jesteście czy wiele osób z państwa ma podłoże psychologiczne, to że najbardziej angażują te rzeczy, które są najbardziej kontrowersyjne, te, które generują ten syndrom oblężonej twierdzy, te, które promują treści, czy to związane z jakimiś teoriami skiskowymi i tak dalej, i okazało się, że tego typu filmy były wyświętlalne orzędy wielkości częściej niż filmy, które są neutralne, filmy, które są związane z zupełnie bezpiecznymi, nazwijmy to treściami. Tak, więc to jest pierwsze źródło błędów, całkowite rozjechanie się funkcji biznesowej, którą model statystyczny ma zrealizować w świecie i funkcji celu, z jaką był szkolony. Drugi problem, to jest kwestia obciążenia. Obciążenie, czyli bajas, to jest zjawisko, w którym wyniki działania modelu są systematycznie wypaczane. I teraz one są wypaczane, ponieważ przyjęto błędne założenia, na przykład błędne założenia dotyczące jakości danych, na których model będzie trenowany. Tyle tylko, że żaden model statystyczny nie może działać bez założenia. A wynika to stwierdzenia, które w 1997 roku Wolpert i McCready sformułowali. To jest twierdzenie matematyczne, zwane twierdzeniem obraku darmowego lunchu, no free lunch at your own. I to twierdzenie obraku darmowego lunchu mówi dokładnie tyle, że każdy model statystyczny jest średnio dokładnie taki sam, jeśli zostanie zaaklikowany do wszystkich możliwych problemów. To najprościej jest pokazać na rysunku. Mianowicie, jeżeli w tym miejscu będziemy rozważali spektrum wszystkich możliwych problemów, z jakimi może się dany model statystyczny spotkać, to całkowicie losowa procedura algorytm byłoby całkowicie losowy, będzie miał średnio dokładnie taką samą efektywność. Na osi Y mamy tutaj jakąś symboliczną efektywność, jakość modelu, precyzję modelu, cokolwiek takiego. Jeżeli mamy jakiś algorytm, który jest bardzo precyzyjnie dostrojony do rozwiązania konkretnego problemu, to będzie na przykład ten algorytm, to akurat z książki o algorytmach ewolucyjnych, więc to zanim dwie wersje, jeden jest jakiś tam bardzo dostosowany drugi, ale jest wersja ewolucyjna, to one będą doskonale sobie radziły zdecydowanie powyżej średniej dla tego konkretnego modelu, ale z definicji muszą być, we wszystkich innych problemach, znacznie wyruszenie średnio. Dlatego, że za to, co zyskujemy tutaj, przychodzi nam płacić poza domeną, dla których model został, dla którego dany model został przystosowany i to działa absolutnie dla wszystkich. Jeżeli chcemy mieć, i to jest tak naprawdę jeden z najlepszych argumentów przeciwko idei ogólnej sztucznej inteligencji, że nie można wyobrazić sobie algorytmu, który dla szerokiej klasy problemów będzie równie dobry. Nawet jeżeli znajdziemy jakiś algorytm, który, nazwijmy go, jest takim algorytmem heurystyką rozwiązania szerokiej klasy problemów i rzeczywiście jest w stanie przekroczyć losowość dla szerokiego spektrum problemów i tak pojawia się bardzo, bardzo szeroka gama, dla których ten algorytm będzie gorszy i tak naprawdę wszystko się jest w sobą w życiu. Więc to jest pierwsza sprawa, błędne założenia. Druga kwestia, dane. Tim Mitchell, jeden z praktyków uczenia maszynowego sformułową ciekawą obserwację, mianowicie to, że założenie, które leżył w podstaw wszystkich modeli uczenia maszynowego, jest takie, że dane, na których model jest nauczony, rzeczywiście są identyczne z tymi danymi albo są bardzo podobne do danych, na których model będzie w przyszłości zastosowany. Natomiast stary żart o tym jaka jest różnica między teorią a praktyką, tak? Teori nie ma żadnej, a w praktyce jest. I to jest, to jest odpowiednica. Więc w rzeczywistości oczywiście to założenie jest prawie, że zawsze zło ma. I dane, na których model są uczone, praktycznie nigdy nie są takie same, czy mają inne rozkłady, niż dane, na których modela będą dalej zastosowane i to jest tak naprawdę z naszego punktu widzenia, z punktu widzenia myślenia o wykorzystaniu sztucznej inteligencji i uczenia maszynowego do badań naukowych, chyba najważniejsza rzeczy. Na koniec chciałbym Państwu pokazać kilka przykładów tego niedopasowania danych do rzeczywistości i tego jak to skutkuje w kontekście właśnie przede wszystkim grup wykluczonych, o których wcześniej mówiła Agata. Więc pokażę Państwu cztery przykłady. Kwestie związane z historycznymi obciążeniami danych z wykorzystaniem danych, nad którymi naukowcy utracili kontrolę, wykorzystaniem danych, które są wynikiem nierównomiernego, nierównomiernej cyfryzacji świata i w szczególności, jeśli chodzi o grupy, które są w zdecydowaniu uboszczek zasoby. Tutaj tylko i wyłącznie wspomnę z tytuły publikacji, do których Państwa odeślę, to każda z nich pokazuje w zdumiewający sposób jak teoretycznie neutralny algorytm potrafi krzywdzić różne grupy, jeśli będzie stosowany na danych, które niosą ze sobą historyczne zaszłości. Pierwsza praca, która się pojawiła w Ameryken Ekonomii Krywiu, pokazywała, jak bardzo nie można korzystać np. z danych o zatrudnieniu ludzi historycznym, ponieważ model, któremu były przedstawiane CV, kandydaty i kandydatów, które były całkowicie wyzute z jakichkolwiek informacji, które pozwalałyby zidentyfikować grupę etniczną i płyć kandydatki czy kandydata, w zasadzie takiej, że tylko i wyłącznie mamy informacje o umiejętnościach danej osoby, o tym jakie były wymagania w danej pracy, informacje o tym, czy dana oferta została przyjęta, czy nie. Algorytm natychmiast nauczył się rozpoznawać afroamerykańskie imiona. Dlatego, że istnieje bardzo duża różnica w rozkładzie częstości występowania imion. I jeżeli ktoś miał na imię latifa albo trewo, to niezależnie od tego, co potrafił albo potrafiła, nie byli przyjmowani do pracy. I Algorytm, mimo że sam z siebie nie wiedział w żaden sposób, że ta osoba jest czarną skórą, natychmiast to podchwycił, bo nie miał innych podstaw. Tak naprawdę to była jedyna rzecz, która rozróżniała te osoby na rynku pracy. Słynny przykład Kompasa. Kompas to jest system, który jest wykorzystywany w Stanach od 15 lat do decydowania, czy dana osoba powinna pójść na zwolnienie warunkowe czy nie i to jest model, który próbuje przewidzieć, jakie jest prawdopodobieństwo, że dana osoba dokona recedywy. I twórcy Kompasa twierdzili, że ten model popełnia dokładnie tyle samo błędów dla osób białoskórych i czarnoskórych. I to jest prawda, tyle tylko, że on popełnia dokładnie odwrotny rodzaj błędów, to znaczy dla osób białych znacznie częściej twierdzi, dwa razy częściej twierdzi, że dana osoba nie popełni recedywy, nie może popełnić, a dla osób czarnoskórych dokładnie odwrotnia. 40% przypadków jest błędów typu false positive, gdzie uważa, że dana osoba popełni recedywę, mimo, że jej nie popełni. Usiletniają dokładnie te same średnie. I o to, że Kompasa mówił, o co wam chodzi, no przecież dokładnie tak samo często się mylimy. No tak, tylko że to są dwa zupełnie różne rodzaje błędów, tak, typ pierwszej, typ drugi błędów. No i wreszcie praca, która się dwa lata temu pojawiła w Science, która pokazywała, jak bardzo, jak dziwnie wyskoczyła różnica pomiędzy populacją białoskórą i czarnoskórą w Stanach przy definiowaniu potrzeb medycznych, gdzie autorzy i autorki przyjęli jako profesy i dla tego, jak bardzo potrzebna jest dana procedura medyczna koszt procedury medycznych. A jak zakładali, że będziemy przewidywali, czy dana osoba powinna zostać skierowana na kolejną, dalszą procedurę medyczną w zależności od wyników badań medycznych, no i jak bardzo poważna jest ta choroba, sprawdzali tak naprawdę ten koszt procedury medycznej. Co mogło pójść źle? Nikt w grupie badawczej, wszyscy mieli dokładnie, pewnie sama grupa bogatych akademików, wszyscy mieli dokładnie te same polisy ubezpieczeniowe i nie zawali sobie z tego sprawy, że cała uboszcza część populacji ma po prostu znacznie niższe polisy dla znacznie ważniejszych chorod. To znaczy osoba zamożna dla niej jej polisą ubezpieczeniowa generowała znacznie większy koszt dla znacznie mniej poważnej procedury medycznej niż osoba uboszcza, dla której na przykład koszt leczenia raka był niższy, niż koszt naprawdę łąkotki dla kogoś, który był bardzo bogatą i miał bardzo bogatą polisę no i oczywiście algorytm całkowicie dyskryminował osoby niebiały. Utrata kontroli nad danymi. Trzy lata temu Microsoft poniósł spektakularną porażkę, długopracowali nad modelem językowym, czyli takim modelem uczenia maszynowego, który jest w stanie generować język i który chcieli nauczyć na podstawie mowy w internecie. To był bot, który miał się nazywać Tai, Tai Tweets i Tai został, zostało, zostało przygotowane i miało być włączone w internecie i miało odpowiadać, czytać tak naprawdę Tweety użytkowników i na tej podstawie uczyć się języka i zacząć mówić takim nowym językiem internetowym. Pierwszy tweet Tai brzmiał so many new beginnings, see you soon humans, need to sleep now, many conversations ahead of us. Po 24 godzinach Tai twierdziła, że należy zagazować wszystkich żywów. Tyle zajęło ludziom nauczenie, bo tam hate everybody, fucking hate feminists, Hitler was right i tak dalej, 24 godziny, okolita kontrola utraty nad danymi. Google, to są automatycznie wygenerowane podpisy pod zdjęciami. Jeden z tych podpisów jest ewidentnie inny niż wszystkie pozostałe. Jakim cudem w Google nikt nie wpadł na pomysł, żeby zrobić jakiś sanity checks, żeby zobaczyć, jak to zadziała, nie jestem w stanie sobie wyobrazić, że oni mają w swoim zbiorze danych, na którym uczyli ten model, więcej zdjęć goryli, niż zdjęć czarnoskórych mieszkańców Stanów Zjednoczonych. Więc aż trudno mi sobie wyobrazić, że tutaj nie ma jakiejś ludzkiej złośliwości ludzkiej głupoty, może to jest kwestia oświetlenia, ciężko mi powiedzieć, ale coś takiego jest, coś takiego jest aż nie wyobrażane. Natomiast rzeczą, która jest może mniej oburzająca, ale groźniejsza systemowo, a to jest jeszcze jeden przykład, to też Google. Google generalnie ma w ogóle problem z robieniem dobrych modeli uczenia maszynowego i regularnie podpada pod takie dziwne rzeczy. Tu macie Państwo dwa wyniki z wyżkiwarki obrazów w Google. Po lewej stronie, nie wiem czy to widać, professional hairstyles for work, po prawej unprofesional hairstyles for work. Czy ktoś z Państwa dostrzega jakąś korelację? No znowu, skąd to się wzięło, ciężko jest powiedzieć. Natomiast to, czym chciałem zakończyć, to jest ten obraz, który tak naprawdę pokazuje znacznie głębszy problem, który leży u podłoża badań wykorzystujących uczenie maszynowe. Tutaj macie Państwo wynik działania modelu rozpoznowania obiektów. To są modele, każdy może sobie to łatwo uruchomić, wrzucamy zdjęcie i model rozpoznaje obiekty na zdjęciu. I teraz na dole są poprawne kredykcje, na górze są błędy. Teraz popatrzcie Państwo na błędy i popatrzcie Państwo na kraje, w których zrobiono to zdjęcie. To jest taki state-of-the-art model rozpoznawania obrazów. Wykorzystuję, jest akurat facebookowy model. Facebook wykorzystuje go, żeby analizować obraz, które ludzie wrzucają na swoje poste. Nigdy ten model wcześniej nie widział, albo widział zdecydowanie za mało takich zdjęć szczoteczki. Albo to jest rozpoznowane jako butelki po piwie, a nie jako przyprawy, tam na górze. My jeszcze nawet pamiętamy, ja przynajmniej, pamiętam, że tak wygląda mydło, wyglądało mydło, natomiast już większość Amerykanów traktuje to jako coś do zjedzenia. I teraz, skąd się ten błąd wziął? Otóż stąd, że to jest rozkład lokalizacji, w których były robione zdjęcia. Na zielono są te lokalizacje, w których model daje poprawne predykcje na czerwono, im bardziej czerwono, tym bardziej obgłań na predykcje. Ten model facebookowy nie jest w stanie poprawnie rozpoznawać niczego z... to jest chyba Erytra, czy to jest Somalia? To jest Etiopia, to pewnie będzie Somalia, prawda? Papua Nowa Gwinia, Peru, jakieś kraje afrykańskie, ale generalnie rzecz biorą. Są miejsca, gdzie poprawnie rozpoznaje, są miejsca, w których rozpoznaje niepoprawie. I skąd to się bierze? To się dokładnie bierze z tego, z całkowitego zaburzenia równowagi danych, na których model się uczy. Dlatego, że tutaj macie Państwo trzy największe zbiory danych obrazów, które są uczone do trenowania modeli statystycznych. To jest ImageNet, Koko i OpenImages. Repozytoria zawierające miliony obrazów, które zostały etykietowane. Obrazy, które są dokładnie opisane, ludzie do ręczni opisywali, co tam jest na tych obrazach, itd. A tutaj macie Państwo gęstość zaludnienia na świecie. I ten obrazyk tłumaczy wszystko. Z tego się to bierze. To nie jest tak, że ktoś złożliwie to robi, że ktoś specjalnie wie, a pokażemy biednemu światu. Nie, po prostu jest tak duża nierównowaga w dostępie do cyfryzacji i w cyfryzacji w ogóle zasobów tekstu, języka, obrazów, kultury, że siłą rzeczy, jeżeli będziemy zakładali, że Internet stanowi odbicie świata, to będziemy pokazywali ten świat totalnie, totalnie zaburzony. To jest dla obrazu, a tutaj macie Państwo to dla języków. Hugging Face to jest największe repozytorium modeli językowych. To jest główne miejsce, z którego w zasadzie wszyscy korzystają, żeby brać modele, które służą potem do automatycznego opowiadania na pytania, generowania streszczeń, pytania i odpowiedzi, znajdywanie nazwanych enci w tekście itd. Wielkie, darmowe, ogromne repozytorium. Wynotowałem sobie z Wikipedia 10 największych języków na świecie, jeśli chodzi o łączną liczbę mówczyń i mówców. A tutaj macie Państwo liczbę modeli, które są załadowane do Hugging Face dla każdego z tych języków. I o ile jestem w stanie zrozumieć, dlaczego dla języka angielskiego jest tak dużo, jest tak gigantyczna dysproporcja, o tyle już na przykład nie jestem w stanie zrozumieć, dlaczego francuski jest tak bardzo nadreprezentowany w stosunku do arabskiego, mimo że mają dokładnie tyle samo mówców na całym świecie. Albo dlaczego dla język pańskiego, mimo że Hindi jest znacznie popularniejszym językiem, mamy pięć razy więcej modeli wytrenowanych dla języka hiszpańskiego. Więc ta dysproporcja tak naprawdę pokazuje, jak dalecy jesteśmy od wyrównania szans, jeżeli chodzi o przynajmniej ten świat cyfrowy, a co za tym idzie, jesteśmy póki co skazani, jeżeli będziemy to robili całkowicie bezrefleksyjnie, to jesteśmy skazani na dalsze propagowanie wykluczania cyfrowego grup, które są poniżej. I na sam koniec to już jest w pełni ostatni slajd, żeby nie było aż tak bardzo negatywnie pesymistycznie, czy da się coś tam zrobić. Na szczęście mimo że świat technologii, szczególnie ICT jest tradycyjnie bardzo konserwatywny i żeby nie powiedzieć prosty wsteczne, a mówię to jako reprezentant mojego kochanej uczelni Politechniki Poznańskiej, to nawet do nas zaczynają docierać pierwsze przewłyski i jakieś rewolucji etyczno-moralnej. I ta idea tego, że jednak Responsible Transworthy Ethical AI to jest coś co, bez czego się każdy z nas należy do jakiejś grupy, która po jakimś względem może być dyskryminowana, więc najbardziej opłaca się po prostu nie dyskryminować wszystkich i wszystkim nam będzie najlepiej. Ta idea zaczyna się wreszcie dobijać do inżynierskich głów. Powstał nawet duży instytut na rzecz etycznej AI i to jest lista siedmiu kroków, które oni sugerują jako najprostsze możliwe rozwiązania przynajmniej na pierwszy krok. Czyli przede wszystkim nie zakładaj automatyzacji, zawsze wkładaj human and the loop. Zawsze musi być człowiek, bo jedynie człowiek i to najlepiej przedstawicie do przedstawicielka grupy wykluczonej, bo tylko oni będą w stanie zobaczyć szybko zauważyć miejsce, w którym może się pojawić dyskryminacja. Ocenia nie jest w stanie uciec przed tym obciążeniem w danych, nie da się tego zrobić, ale bądź tego świadomy, przeność potem to obciążenie na interpretację modeli. Wyjaśnialność, wyjaśnialność, jeszcze raz wyjaśnialność, skupia się na wyjaśnialnych modelach po to, żeby nie odpowiadać, bo algorytm i tyle, czarna skrzynka i nie jestem w stanie nic tym zrobić, staraj się budować model, które są wyjaśnialne, staraj się budować modele, które są reprodukowany, bo być może gdzieś błąd jest po twojej stronie, może błąd jest gdzieś w całym tym przepływie przygotowaniu danych, trenowania modelu, więc jeśli model jest reprodukowany, i inni mogą powtórzyć swoje kroki, powtórzyć, zobaczyć, poprawić w ten sposób możemy dojść do czegoś lepszego prywatność czy świadomość ryzyka ukrytego w danych to są też takie generalne rzeczy. Jest coś takiego jak efekal i responsible AI cała taka duża inicjatywa i myślę, że to będzie dobry wstęp do późniejszych dalszych dyskusji na tym obszarze. Dziękuję serdecznie do wszystko.