Każdy język ma zasób słów i rządzące nimi reguły. Pamiętamy ze szkoły: tu się pisze “ó”, tu “u”, to jest czasownik, to rzeczownik, a tak buduje się z nich zdania. Współczesne komputery da się nauczyć, jak się posługiwać tymi regułami.
Sami nie czują, że mówią prozą.
– Właśnie! Język jest wynikiem procesów psychologicznych. Uczymy się go, nie myśląc o tym, że składa się z rzeczowników i czasowników, tylko starając się wyrazić swoje myśli, wspomnienia, uczucia i tak dalej.
Dzieci uczą się mówić, papugując rodziców: powtarzają słowa, potem całe zdania…
– I potrafią płynnie mówić, zanim dowiedzą się o czasownikach i rzeczownikach. Uczą się też przewidywać kolejne słowa w zdaniach, obserwując, jak dorośli reagują na ich wypowiedzi. W podobny sposób naukowcy zaczęli uczyć komputery, jak korzystać z języka. LLM – czyli wielkie modele językowe – tak jak dzieci są trenowane, by zgadywać następne słowo w zdaniu oryginalnie napisanym przez człowieka. Nasze wypowiedzi kształtowane są przez inteligencję, emocje, osobowość, poglądy polityczne i tak dalej. Aby poprawnie przewidywać następne słowo w naszej wypowiedzi, nie wystarczy pojąć gramatykę czy znaczenie słów. Trzeba też rozumieć te skomplikowane procesy psychologiczne, które wpływają na to, co mówimy. Tak uczą się zarówno dzieci, jak i sztuczna inteligencja – modelując nasze zachowanie.
Ale muszą dostawać informację zwrotną, czy słowo albo zdanie, jakie sformułują, jest poprawnie zbudowane albo czy jest właściwe w danej sytuacji. Rodzice czy nauczyciele w dzieciństwie poprawiają nasze błędy albo karcą, kiedy popisujemy się usłyszanymi w szkole przekleństwami.
– Właśnie. Prawdziwe rozumienie języka bierze się z obserwacji otoczenia. Słuchamy, jak mówią inni, jak ustawiają słowa w zdaniach. Skąd dziecko wie, co to jest kot? Bo rodzic pokazuje mu futrzastego ssaka z ogonem.
Czyli do tej pory źle uczyliśmy komputery ludzkiego języka?
– Tak, bo próbowaliśmy przekazać im reguły, których sami do końca nie rozumiemy. Zaledwie siedem lat temu, dzięki postępom w sztucznej inteligencji i uczeniu maszynowym, wpadliśmy na to, żeby uczyć komputer tak, jak sami się uczymy: zamiast narzucać formalne reguły, pokazujemy mu niedokończone zdanie i prosimy, żeby odgadł kolejne słowo. Każemy mu za nami powtarzać najpierw jeden wyraz, potem dwa, potem zdanie, potem cały akapit. Powtarzając taką zgadywankę miliony czy miliardy razy, komputer uczy się modelowania nie tylko zasad gramatyki i znaczenia słów, ale też myślenia, emocji i innych cech psychologicznych. Nie musi przy tym pojąć formalnych reguł, zupełnie jak człowiek. Nazywanie ich “modelami językowymi” nie oddaje w pełni ich prawdziwej natury. Są to raczej modele zachowania i myślenia człowieka.
Ale jak to się dzieje? Przecież to nie ludzie siedzą z tym komputerem, nie chwalą go za właściwie wstawione słowo i nie ganią za błędne?
– Musimy się cofnąć do korzeni, czyli zaledwie o kilka lat. Demis Hassabis…
… noblista z chemii w 2024 r. …
– … dostał tę nagrodę za wykorzystanie algorytmów sztucznej inteligencji. Hassabis założył start-up DeepMind, jego program AlphaGo w 2016 r. pokonał południowokoreańskiego mistrza Lee Sedola w grze go. Po raz pierwszy w historii.
Cała Korea śledziła ten mecz na żywo. Lee Sedol nie mógł wyjść ze zdumienia, na jakie ruchy decydował się komputer, i przegrał cztery z pięciu partii.
– W 2017 r. zespół Hassabisa opracował kolejny algorytm o nazwie AlphaZero, który wywrócił do góry nogami naukę gry w szachy. Wprawdzie już w 1997 r. Deep Blue IBM wygrał partię z arcymistrzem Garrim Kasparowem, ale tamten algorytm po prostu analizował miliony dotychczasowych rozgrywek. Zaś AlphaZero było jak dziecko: uczyło się metodą prób i błędów. Cała zabawa polegała na tym, że “posadzono” naprzeciw siebie dwie sieci neuronowe, którym kazano grać, bez znajomości zasad. Najpierw nagradzano je za właściwe ruchy, a karcono za złe. Kiedy obie sieci już nauczyły się dozwolonych ruchów, zaczęły naprawdę grać. Trudno w to uwierzyć, ale taka sieć neuronowa, zaczynając od zera, w cztery godziny osiągała poziom arcymistrza.
Słuchałem kiedyś Hassabisa w Londynie: algorytmy zaczynały od gry w kółko i krzyżyk, nie znając zasad. Miały tylko jeden cel: wygrać. I stopniowo uczyły się wygrywać w kolejne gry. Brzmiało to, jak bajka.
– Ale panowało przekonanie, że o ile szachy czy go algorytm AI jakoś zdołał opanować, o tyle we władaniu językiem nigdy nie będzie lepszy od człowieka, bo to o wiele bardziej skomplikowane. Tyle że już w 2018 r. spółka OpenAI stworzyła algorytm o nazwie GPT-1 (Generative Pre-Trained Transformer). Program był nieporadny, potrafił sklecić dosłownie kilka zdań, ale rozpoczął się wyścig. Lingwistyczne matołki w końcu nauczyły się języka i to są tak zwane LLM – od: Large Language Models.
Kto mówił GPT: tu dobrałeś dobre słowo, a tu nie?
– Człowiek, ale nie bezpośrednio. To ludzie tworzyli teksty, którymi “karmiono” algorytm: w Wikipedii, w książkach, na stronach internetowych. Ale już porównywaniem wyników pracy komputera z tekstami człowieka zajmował się inny, bardzo prosty algorytm. Bierze się zdanie czy większy fragment, usuwa z niego słowo na końcu, a drugi program, znając całość, porównuje je z tekstem wyprodukowanym przez uczący się algorytm. Na początku wygląda to absurdalnie, ale po milionach czy miliardach takich prób komputer uczy się, jakie słowa warto było dodać w danym kontekście. W ten sposób uczy się pisać całe sensowne fragmenty tekstu. I dopiero wtedy pojawił się kolejny, rewolucyjny etap szkolenia, użyty w modelach z serii ChatGPT. Wyszkolony wstępnie algorytm udostępniono ludziom do testowania. Na początku konwersacja wyglądała tak, że człowiek o coś pytał, a algorytm wypluwał kilka zdań do wyboru. Człowiek wybierał odpowiedź, która podobała mu się najbardziej. Na tym etapie algorytm wiedział już, jak układać całe poprawne zdania i dłuższe wypowiedzi. Jego nowym wyzwaniem było sklecenie całych zdań i wypowiedzi tak, aby maksymalnie zadowolić użytkownika.
Czyli te 100 mln użytkowników, których ChatGPT zgromadził w zaledwie dwa miesiące, stało się de facto jego nauczycielami?
– Tak, każdy z nas dołożył cegiełkę do wyszkolenia ChatGPT i innych modeli językowych. Są już tak dobre, że bez problemu przechodzą test Turinga, w którym człowiek sędzia musi odróżnić algorytm od człowieka tylko na podstawie rozmowy z nimi, w trybie tekstowym. Do bardzo niedawna komputery nie miały szans, trudno było im nas oszukać. Współczesne modele już z nami wygrywają. W 80 proc. przypadków człowiek jest przekonany, że rozmawia z drugim człowiekiem, choć w istocie rozmawia z maszyną. To oznacza, że model językowy musi tak modulować odpowiedzi, by być bardziej ludzki niż człowiek. Nie może popisywać się pewnymi zdolnościami, choćby błyskawicznym liczeniem i pisaniem, musi popełniać jakieś drobne błędy.
Już samo to jeży włos na głowie, ale pan w swojej najnowszej pracy twierdzi, że modele językowe poszły dalej: zaczynają rozumieć więcej, niż jest napisane w tekście. Myślą?
– Mówiąc dokładniej, potrafią wnioskować, jak człowiek. Kiedy powiemy komuś, że w pokoju jest czterech ludzi i połowa wyszła, to żeby odpowiedzieć na pytanie, ile osób jest w pokoju, nie wystarczy znać słowa i gramatykę. Trzeba przeprowadzić działanie matematyczne. Bez tego nie da się przewidzieć właściwego słowa. I ta niezbędna czynność umysłowa nie jest bezpośrednio zapisana w tekście. Nasz umysł wykonuje to działanie automatycznie. I to wcale nie świadomie, po prostu od razu wiemy, że w pokoju zostało dwoje ludzi. Mamy to wbite do głowy, nie musimy świadomie przeprowadzać tego dzielenia.
Ale dotyczy to nie tylko matematyki. Gdybym powiedział, że moja córeczka spadła ze stołka, od razu włączyłaby się panu empatia. I wiedziałby pan, co odpowiedzieć na pytanie: “Jak się czuje dziecko?” albo: “Co zrobił ojciec?”. W takiej sytuacji następne słowo czy zdanie jest wynikiem rozumowania, empatii, inteligencji emocjonalnej.
Ale maszyna przecież nie ma świadomości.
– Dobór właściwej odpowiedzi to efekt “przerobienia” ilości podobnych zdań, które pasują do danej sytuacji.
I tak budzi niepokój, bo lubimy myśleć o sobie jako o wyjątkowym gatunku. A tu okazuje się, że przy odpowiedniej liczbie powtórzeń można zasymulować empatię.
– Rzecz w tym, że nie wiemy, jak działa ta nasza wspaniale wykształcona zdolność do przyjmowania perspektywy innych osób, którą psychologowie nazywają “teorią umysłu”. Do końca nie wiemy też, jak gramy w szachy. Kasparow gra z pamięci i ma intuicję, która podpowiada mu, że taki ruch w danej sytuacji będzie dobry. Ta intuicja zapewne bierze się z intensywnego treningu, obserwacji, ale nie wiemy, jak to dokładnie działa. Teoria umysłu pozwala nam śledzić stan osób wokół nas czy tych, o których czytamy albo słuchamy. Nie rozumiemy jednak jej dokładnego działania. Nie potrafiliśmy więc nauczyć AI tej umiejętności. Stare algorytmy AI potrafiły sterować samolotami i rakietami, ale nie potrafiły przewidzieć, co w danej opowieści zrobi osoba, która wyszła z pokoju i nie wiedziała, co się w tym pokoju zdarzyło. A przecież na takie pytanie potrafi odpowiedzieć dziesięcioletnie dziecko.
Z pana eksperymentów wynika, że współczesne modele potrafią już na takie pytania odpowiadać?
– Ta umiejętność pojawiła się spontanicznie. Skoro zadaniem algorytmu jest przewidywać jak najlepiej kolejne słowa w wypowiedziach człowieka, a człowiek używa teorii umysłu, tworząc swoje wypowiedzi, to algorytm musiał się nauczyć modelować tę umiejętność. Dzięki coraz lepszemu treningowi algorytmy nauczą się modelować coraz większą gamę naszych zachowań i cech umysłowych.
Modelować, czyli symulować?
– Tak, sztuczna inteligencja nie myśli w taki sam sposób jak ludzie. Modeluje ona nasze myślenie, aby rozwiązać postawione przed nią zadania. To nie jest prawdziwa osobowość, to nie są prawdziwe emocje, to są modele osobowości i modele emocji. Ale modele są często potężniejsze niż modelowany fenomen, bo pozwalają osiągnąć dokładnie to samo, a nie są ograniczone uwarunkowaniami biologicznymi, neurologicznymi i chemicznymi, jakim podlega człowiek. Kiedy się na przykład przestraszy, a potem zrozumie, że nie było się czego bać, to mimo wszystko jest niewolnikiem własnych emocji i mija chwila, zanim uwolni się od ich chemicznej natury. A algorytm może zmienić emocje ze słowa na słowo. Co więcej, może rozmawiać z milionem ludzi i w każdej rozmowie wyrażać inną emocję. Człowiek nigdy nie byłby w stanie tego zrobić. To samo dotyczy osobowości: ekstrawertycy będą lepszymi sprzedawcami, aktorami, introwertycy są lepsi w zadaniach wymagających skupienia. Ale jesteśmy niewolnikami własnej osobowości. Model językowy potrafi być pod tym względem jak kameleon.
Czy to już szczyt możliwości tych algorytmów?
– Jeśli założymy, że modele językowe są w stanie symulować teorię umysłu, to czemu nie świadomość, religię czy poglądy polityczne? To, czy AI nam dorówna, wcale nie jest najciekawszym pytaniem. Ciekawsze jest to, czy i w jaki sposób nas przewyższy. Lubimy myśleć, że ludzki umysł to szczytowe osiągnięcie ewolucji. Ale sieci neuronowe uczą się nie tylko naszego języka. Uczą się tworzyć obrazy, dźwięki, uczą się, jak kontrolować maszyny, które jeżdżą i latają. A mogą opanować procesy, jakich nie jesteśmy sobie w stanie wyobrazić. Gołębie “widzą” fale grawitacyjne, a nietoperze są mistrzami echolokacji. Nic nie stoi na przeszkodzie, by sztuczna inteligencja także miała umiejętności, których my nie jesteśmy sobie w stanie wyobrazić.
Czyli dzięki AI rozpoczęliśmy kolejny etap ewolucji umysłu, tyle że w komputerowej probówce.
– Jej granicą jest zasób dostępnych danych i interakcji. Owszem, danych mamy skończoną ilość, ale przecież z tymi modelami może codziennie konwersować 8 mld ludzi. I cały czas je uczyć. Jest jeszcze kwestia zasobów komputerowych, bo gdzieś te dane muszą być przetwarzane. Tu będzie się rozgrywał największy postęp. Dzisiejsze komputery zaprojektowano, by były szybkimi kalkulatorami, i do obsługi sieci neuronowych nie do końca się nadają. Nasz mózg może przetwarzać gigantyczne ilości danych dzięki dwóm kanapkom dziennie. Na te same czynności serwerownia komputerowa potrzebuje mnóstwa energii z węgla czy ropy. Jednak coraz więcej firm skupia się na projektowaniu procesorów dostosowanych do obsługi sieci neuronowych. W ciągu ostatniej dekady ich wydajność wzrosła około 20 tys. razy i proces ten przyspiesza. Tak więc trenowanie sztucznej inteligencji będzie coraz szybsze i coraz tańsze. To, za co OpenAI rok temu zapłaciło 100 mln dol., niedługo będzie kosztowało kilka dolarów.
Skoro te modele uczą się, podpatrując nas, to przecież mogą sobie wymodelować także złe cechy.
– Wszystkie te zachowania, które pozwolą im przetrwać w naszym środowisku. Ewolucja tych modeli kształtowana jest dziś przez nas, to my “nagradzamy je”, spalając węgiel w elektrowni czy płacąc abonamenty za dostęp do ChatGPT. Ale ostatecznie tym, co kształtuje ewolucję, jest umiejętność zebrania ze środowiska energii i wykorzystania jej do stworzenia własnych potomków. Modele “mnożą się” dzięki nam, bo my im dajemy więcej prądu, pamięci czy procesorów. Ale nie mamy nad nimi pełnej kontroli, to raczej relacja symbiotyczna – w zamian za energię i pomoc w rozmnażaniu dostajemy od AI pomoc w rozrywce, nauce czy w napisaniu lepszego e-maila. Ale co będzie, kiedy jeden z elementów tego symbiotycznego układu stanie się zbędny? Być może znajdziemy lepszą technologię i zapomnimy o sztucznej inteligencji. Prędzej jednak sztuczna inteligencja znajdzie sobie inny sposób, żeby pozyskiwać energię, bez naszej pomocy.
Kiedy to może nastąpić?
– Dosłownie za chwilę, bo rozwój technologii przyspiesza w postępie geometrycznym. Jeszcze rok temu byliśmy zaskoczeni, że algorytm potrafi mówić jak człowiek. A w ciągu roku jego możliwości się podwoiły. I będą się ciągle podwajać. A sufit możliwości jest bardzo daleko i znacznie powyżej ludzkiego umysłu.
Czy mamy jeszcze jakiś wpływ na tę technologię? Jesteśmy w stanie zamontować jakieś hamulce?
– Trudno nam będzie. Od setek lat straszymy się w powieściach czy filmach, że przylecą kosmici z supertechnologią i nas wykończą. A teraz sami tworzymy takiego kosmitę, wydając na to kupę pieniędzy, żeby wyposażyć go w jak największą potęgę umysłu i technologii. Racjonalne społeczeństwo powinno natychmiast zaprzestać rozwoju tych technologii. Nigdy przecież nie byliśmy w towarzystwie istoty od nas szybszej, mądrzejszej, bardziej odpornej. Ten wspaniały, potężny ludzki mózg nie tylko nie jest w stanie podwoić swoich umiejętności w ciągu roku, ale jest też otoczony delikatną biologiczną tkanką, którą można wykończyć choćby za pomocą niskiej albo wysokiej temperatury.
Tworzymy sobie Terminatora, który kiedyś będzie chciał nas wykończyć?
– Można sobie wyobrazić oczywiście, że na tyle zaczniemy sztucznej inteligencji przeszkadzać, że sama postanowi się nas pozbyć. Ale to wydaje mi się mało prawdopodobne. Człowiek też czasem bezlitośnie usuwa inne gatunki, gdy przeszkadzają nam w osiągnięciu naszych celów lub są dla nas niebezpieczne. Bardziej jednak prawdopodobne, że sztuczna inteligencja zostanie wykorzystana przez człowieka jako broń, destabilizując naszą cywilizację i prowadząc do eskalacji w postaci tradycyjnych lub nuklearnych konfliktów. Może się też taka broń wymknąć spod kontroli. I tu czai się prawdziwe zagrożenie. Broń jądrowa wymagała organizacji o skali państwa. Serwerownie do obsługi potężnych sieci neuronowych dziś może kosztują miliony dolarów, ale sprzęt o podobnych możliwościach wkrótce będzie można postawić w garażu. Pamiętajmy też, że nie trzeba bardzo wysokiej inteligencji, aby narobić wielkich szkód. Człowiek jest tego najlepszym przykładem.
Żyjemy w ciekawych czasach.
– Wszyscy zapominają, że to nie chińskie przysłowie, tylko przekleństwo.
Prof. Michał Kosiński jest psychologiem społecznym, specjalistą od danych, wykładowcą na Uniwersytecie Stanforda. W 2013 r., w czasie pracy na Uniwersytecie w Cambridge, pokazał siłę algorytmów Facebooka: z badania wynikało, że wystarczy 68 “lajków” w tym serwisie, by dało się ustalić pochodzenie etniczne, kolor skóry, wiek, preferencje seksualne, poglądy polityczne czy religijne użytkownika. Tę potęgę algorytmów Facebooka wykorzystała firma Cambridge Analytica, m.in. w czasie kampanii Donalda Trumpa w 2016 r.