Dobrosława Gogłoza: Chciałabym zacząć od zadania sobie pytania o to, jak znaleźliśmy się w tym momencie w historii – jakie były największe przełomy w działaniu sztucznej inteligencji w ostatnich latach?
Barbara Rychalska: Jeśli chodzi o językowe modele GenAI, czyli popularne LLM-y (large language models, pol. wielkie modele językowe), przełomem było opracowanie nowego modelu nazwanego transformerem. Dokonał tego zespół Google’a – co ciekawe, z udziałem polskiego naukowca, Łukasza Kaisera. Przed opracowaniem transformera istniały już różne, zaawansowane modele języka naturalnego, oparte na sieciach neuronowych. Czytały one jednak zdania token po tokenie (w przybliżeniu – słowo po słowie), co powodowało stopniowe zanikanie informacji. W transformerze natomiast zastosowano nowatorski mechanizm atencji. Umożliwia on wczytywanie wielu tokenów naraz, w ramach jednej „porcji”. Ponieważ transformer analizuje relację każdego tokenu wobec każdego innego tokenu w przetwarzanym kontekście, tworzy bardzo szczegółowy „rozkład uwagi”, który wskazuje, które tokeny są bardziej istotne dla danego kontekstu. W szczególności pozwala to wykryć związki znaczeniowe pomiędzy słowami znajdującymi się daleko od siebie. Ma to również skutki wydajnościowe – operację jednoczesnej analizy par tokenów łatwiej jest zrównoleglić niż sekwencyjne czytanie tekstu. Opracowanie transformera wywołało lawinę – powstały oparte na tej architekturze modele takie jak BERT, RoBERTa, XLNet oraz wiele innych, które osiągnęły znacznie lepsze wyniki niż klasyczne modele sekwencyjne, praktycznie w każdym zadaniu dotyczącym języka naturalnego, takim jak wykrywanie emocji w tekście, podsumowywanie go, odpowiadanie na pytania czy tłumaczenia. Różnica w jakości ich działania w porównaniu do starszych metod była piorunująca – było widać, że to już nie inkrementalne ulepszenie, a zupełnie nowa jakość.
Następnie okazało się, że w przeciwieństwie do wielu innych typów modeli, zwiększanie ilości danych treningowych oraz rozmiaru modelu transformerowego nie powoduje szybkiego wypłaszczenia przyrostów jakości. Wprost przeciwnie, umiejętności i jakość modelu szybko rosły wraz z rozmiarem danych i liczbą parametrów, jeśli pomiędzy tymi wartościami zachowana była odpowiednia równowaga (tzw. „LLM scaling laws”). Na tym zjawisku opiera się sukces firmy OpenAI i modeli z rodziny GPT, a następnie kolejnych, o których słyszymy na co dzień – modeli Mistral, Claude, Llama i innych.
Czy możesz wyjaśnić, jak działają duże modele językowe (LLM) i jakie są ich obecne ograniczenia?
Nowoczesne modele LLM wciąż opierają się na architekturze transformera. Zostały w nich dodatkowo zastosowane liczne nowe techniki, takie jak instruction tuning czy RLHF (reinforcement learning from human feedback) – uczenie modelu rozpoznawania intencji pytań i próśb, jakie kieruje do niego użytkownik oraz wykrywania, które odpowiedzi będą bardziej pożądane. Pierwsze modele transformerowe uczone były przewidywania następnego tokenu (można sobie to wyobrazić w ten sposób, że pokazujemy modelowi niedokończony tekst i prosimy go o uzupełnienie, tak aby całość tekstu była logiczna). Modele były więc uczone określania, jakie słowa są najbardziej prawdopodobne w danym kontekście. Jak się okazało w praktyce, zadanie to ściśle wiąże się z rozumieniem logiki języka, znaczenia słów oraz generowaniem płynnego i poprawnego tekstu. Dzięki metodom takim jak instruction tuning, modele są w stanie pójść jeszcze krok dalej – odczytywać intencję pytań użytkownika i spełniać jego cele.
Nieustannie powstające nowe techniki trenowania pozwalają na wzmocnienie różnych umiejętności LLM-ów. Na przykład wypuszczony niedawno model OpenAI „o1” wykazuje daleko wyższe niż wcześniej zdolności do logicznego rozumowania – dzięki zastosowaniu metody chain-of-thought. Polega ona na rozbijaniu skomplikowanych zadań na sekwencję niezbędnych kroków rozumowania, które prowadzą do rozwiązania. Dzięki nauce dzielenia problemu na podproblemy, model jest w stanie zastosować zdobyte umiejętności do wielu nowych zadań. Oczywiście daleko tu do medialnego stwierdzenia, że „modele rozumują na poziomie dorosłego człowieka/studenta/doktoranta/itp.”. Takie wyrażenie jest problematyczne na wielu poziomach, nawet tym najbardziej podstawowym, ponieważ nie wiemy dokładnie, w jaki sposób rozumuje punkt odniesienia, czyli człowiek.
Nie wszystko jednak zależy od konkretnych celów trenowania. LLM-y mają ciekawą własność znaną jako „emergence”, czyli spontaniczne nabywanie nieoczekiwanych umiejętności, do których nie były bezpośrednio trenowane. Emergence występuje przy zastosowaniu odpowiednio dużych danych i przy odpowiednio dużym rozmiarze modelu. Przykładem takiej emergentnej umiejętności jest dokonywanie tłumaczeń czy wykonywanie prostych obliczeń. Przypuszcza się, że LLM-y takie jak GPT nie były trenowane specjalnie do tych zadań, jednak ich ekspozycja na ogromne, wielojęzyczne dane spowodowała, że są w stanie stworzyć ekwiwalentny znaczeniowo tekst w innym języku oraz rozumieć podstawowe znaczenie liczb. Nie wiemy, jakie emergentne umiejętności modeli pojawią się w przyszłości.
Źródłem fascynacji LLM-ami są ich ogólnie bardzo wysokie zdolności językowe (płynność, poprawność gramatyczna wypowiedzi), duża zasobność pamięci (są w stanie odpowiedzieć na wiele pytań z najróżniejszych dziedzin, takich jak historia, prawo, chemia, botanika, tak naprawdę dowolne tematy), oraz dobre zrozumienie intencji pytań.
Natomiast braki i zagrożenia związane z LLM-ami to przede wszystkim halucynacje (wypowiedzi niepoprawne, zawierające błędy merytoryczne, jednak artykułowane z dużą pewnością siebie). Istnieją na to pewne środki zaradcze, jednak nie są w 100% skuteczne. Na przykład, LLM-y często mogą poprawić się i zadenuncjować swoją własną halucynację, jeśli dopytamy je, czy są pewne swojej odpowiedzi lub dopytamy je o fragment, który wydaje nam się zaskakujący lub dziwny. Warto zatem podważać odpowiedzi LLM-ów i zadawać pytania typu „Czy jesteś pewien, że…?” Niestety, im bardziej specjalistyczne pytanie, tym większa podatność na błędy. Z moich obserwacji: zadając LLM-om pytania z pozycji laika, np. z dziedziny farmacji, możemy być pozytywnie zaskoczeni (dlatego, że nasze pytania będą dosyć proste merytorycznie). LLM ogólnego przeznaczenia, taki jak ChatGPT nie poradzi sobie jednak ze specjalistycznymi pytaniami, które zadałby farmaceuta w związku ze swoją pracą codzienną. Do takich zastosowań warto wykorzystywać usługi wyspecjalizowane w odpowiadaniu na pytania, a najlepiej jeszcze podające źródła odpowiedzi (np. darmowe Perplexity) lub modele dziedzinowe.
Niektórzy pokładają też zbyt dużo zaufania w kreatywność modeli, przypisując im na przykład zdolność tworzenia strategii rozwoju firm, umiejętność tworzenia zaskakujących kampanii marketingowych itp. LLM-y mogą na pewno podpowiedzieć wiele interesujących pomysłów w tych tematach, jednak będą to bardziej propozycje „zdroworozsądkowe” i powtarzalne niż rewolucyjne. LLM-y nie są wystarczająco twórcze, poruszają się raczej w obrębie pewnych uśrednionych konceptów, które zaobserwowały w swoich danych treningowych. Nie mogą więc póki co przewyższyć człowieka. Inaczej mówiąc – biznesowa porada od LLM będzie brzmiała bardziej jak raport McKinsey’a niż strategia, którą sporządziłby osobiście geniusz biznesu, planując swój następny ruch.
Jakie potencjalne korzyści dla społeczeństwa widzisz w dalszym rozwoju AI? A jakie zagrożenia?
Korzyści widzę na co dzień w swoim własnym życiu, zaczynają się też pojawiać badania dokumentujące przydatność GenAI. Nie jest się jednak łatwo przebić przez szum informacyjny. Na początku fali zachwytu pierwszymi modelami GPT utrzymywałam daleko idącą ostrożność. Zwłaszcza w obliczu pojawiających się jak grzyby po deszczu influencerów, obiecujących cuda. Następnie, w odpowiedzi na wszechobecny entuzjazm, pojawiły się grupy „hejterów”, twierdzących, że GenAI jest trendem, który szybko przeminie.
Tymczasem, w badaniu Harvard Business School pt. „Navigating the Jagged Technological Frontier” stwierdzono, że pracownicy są w stanie wykonać zadania szybciej i lepiej (z większą poprawnością) używając AI, jeśli spełniony jest warunek odpowiedniego z niej korzystania. Co to znaczy? Otóż zadania stawiane przed uczestnikami zostały specjalnie stworzone w taki sposób, aby część z nich była trudna do wykonania lub „niekompatybilna” z AI (zadania „outside the frontier”), zaś część znajdowała się w obrębie możliwości modelu AI (zadania „inside the frontier”). Grupa pracowników, która potrafiła krytycznie oceniać odpowiedzi modelu i z zaangażowaniem wchodzić w dyskusje z modelem, kwestionując jego oceny, dobrze radziła sobie z zdaniami „outside the frontier”. Pracownicy, którzy przyjmowali bezkrytycznie odpowiedzi AI, wykonywali te zadania gorzej. Jeśli chodzi o zadania w obrębie możliwości AI, obserwowano wzrost metryk jakości pracy. Optymistyczne doniesienia pojawiają się również na temat wpływu GenAI na pracę programistów – zresztą większość mi znanych korzysta już z asysty LLM-ów do rozwiązywania albo szczególnie powtarzalnych, bardzo prostych, ale czasochłonnych zadań, albo tych związanych z nowymi frameworkami czy narzędziami, które muszą szybko zastosować. W takich sytuacjach przed erą GenAI musieli przejść długą ścieżkę prób i błędów.
Jednocześnie faktem jest to, co już wcześniej wspomniałam – wiele specjalistycznych branż, takich jak medycyna, różne gałęzie inżynierii, farmacja czy prawo, najpewniej nie skorzysta z LLM-ów ogólnego przeznaczenia, bo są one po prostu zbyt słabe do tak specyficznych zastosowań. Branże te potrzebują dokładniejszych, dedykowanych im narzędzi.
Na tak fundamentalne przemiany należy jednak patrzeć szerzej niż tylko nasza satysfakcja (lub jej brak) ze sprawniejszego wykonywania zadań. GenAI może pomóc rodzicom stworzyć bajkową kontynuację przygód ulubionych bohaterów swoich dzieci. Ale tak samo może posłużyć do szybkiego tworzenia tysięcy tekstów, wyglądających na tweety pisane przez prawdziwych ludzi, które są gotowe do rozsyłania przez media społecznościowe w przeciągu sekund. Niezwykle łatwo jest tworzyć nawet te najniebezpieczniejsze, jak agitujące politycznie i szerzące nienawiść wpisy na forach lub nawet fałszywe zdjęcia i filmy – tzw. deepfakes. To już się dzieje – na przykład w Korei Południowej mamy w tym momencie do czynienia z masowym tworzeniem pornograficznych deep fake’ów z użyciem wizerunków istniejących osób, często nieletnich. Ich twarze są nakładane na wygenerowane sylwetki. Sprawcami są często szkolni koledzy prześladowanych dziewczynek. Wykrywane przez władze kanały na Telegramie, które rozpowszechniają te materiały, miewają po kilkaset tysięcy członków. Niestety, wydaje się, że w dobie generatywnej sztucznej inteligencji dobrze zaprojektowane regulacje są niezbędne, aby zabezpieczyć nasze dane, prywatność oraz uczęszczane przez nas przestrzenie internetowe przed zalaniem przez wygenerowane treści.
Często podnoszonym argumentem przeciwko AI jest też zanikanie miejsc pracy. Rzeczywiście, może dojść do sytuacji, w której trudniej będzie znaleźć pracę osobom dopiero zaczynającym w danej branży, ponieważ prostsze zadania będą rozwiązywane przez AI na zadowalającym poziomie. Uważam jednak, że ostatecznie nie da się polegać wyłącznie na AI – mimo że nasza praca może być złożona ze względnie prostych podzadań, to kumulacja choćby małych błędów i przeoczeń spowoduje ostatecznie duże problemy. Ktoś musi tworzyć prompty i aktywnie pracować z AI, aby dojść do pożądanego rezultatu, a następnie weryfikować i ewentualnie poprawiać efekty. Również pracodawcy muszą zdać sobie sprawę, że brak edukacji młodszych pracowników spowoduje, że już za 3-5 lat zabraknie specjalistów.
Innym zagadnieniem jest zdolność AI do spełniania złożonych kryteriów wykonania danego zadania. Na przykład, AI potrafi generować robiące wrażenie obrazy, jednak w pracy grafika ważne są konkretne wymagania stawiane przez zleceniodawcę (np. na temat skojarzeń, które mają wywoływać poszczególne elementy obrazu, liczby osób i przedmiotów na obrazie, itp.). Nie wystarczy po prostu wygenerowanie „ładnej” grafiki, a modele mają problemy z rygorystycznym spełnianiem złożonych wymagań. Nie bez znaczenia jest też kwestia prawnej odpowiedzialności za poprawność wyników naszej pracy. Uważam, że ostatecznie dojdziemy do paradygmatu pracownika szeroko wspieranego przez AI, jednak wciąż niezbędnego w swoim miejscu pracy.
Jak oceniasz obecny stan badań nad interpretowalnością i wyjaśnialnością AI? Czy zbliżamy się do „otworzenia czarnej skrzynki” systemów AI?
Modele LLM należą do grupy modeli trudno wyjaśnialnych, co związane jest chociażby z ich rozmiarem – ciężko jest zrozumieć znaczenie każdego parametru lub ich kombinacji, gdy mamy do czynienia z miliardami parametrów. Znacznie więcej wysiłków jest obecnie kierowanych w stronę osiągania coraz bardziej imponujących zdolności modeli niż prób zrozumienia tego, co dokładnie dzieje się w ich „głowie”. Jednakże niektóre badania nad interpretowalnością modeli dostarczyły ciekawych wniosków na temat samego ich działania – na przykład udowodniły, że duża część parametrów modelu w rzeczywistości nie służy do niczego ważnego i może zostać usunięta.
Często wspominamy o wyjaśnialności w kontekście weryfikacji luk i braków w modelach. Czyli tak naprawdę interesuje nas kwestia wycieków danych osobowych, biasów czy dyskryminacji dokonywanej przez modele. W celu walki z tymi problemami pojawiają się obecnie inne podejścia niż czysta wyjaśnialność – na przykład, szybko rozwijająca się dziedzina LLM Red Teaming pozwala na identyfikację luk bezpieczeństwa w modelach, za pomocą metod przypominających działania etycznych hakerów. W ramach Red Teamingu projektuje się specjalne prompty, mające na celu sprowokowanie modelu do zrobienia czegoś „złego”. Dzięki temu co prawda nie zrozumiemy dokładnego działania modelu, ale za to mamy szansę wykryć konkretne zagrożenia i luki.
Jednakże myślę, że problem braku wyjaśnialności boli wielu twórców AI. Ilya Sutskever, jeden z założycieli OpenAI, ogłosił ostatnio uruchomienie swojego startupu, którego celem jest stworzenie „safe superintelligence”. Można mieć nadzieję, że przyczyni się do rozwoju metod wyjaśnialności.
Jakie kompetencje powinni rozwijać Polacy, aby być przygotowanymi na erę AI?
Mamy tutaj co najmniej 2 perspektywy: osoby tworzącej lub wdrażającej AI i osoby „nietechnicznej”, która chcąc nie chcąc, jest już wystawiona na działania AI każdego dnia.
Jeśli chodzi o praktyków AI, to podstawą ich pracy są dobre umiejętności programistyczne. Umiejętność sprawnego tworzenia dobrego, skalowalnego kodu pozwala szybko przeprowadzać eksperymenty i oszczędzać zasoby obliczeniowe, które są drogie i potrzeba ich coraz więcej. Według mnie łatwiej jest zdobyć umiejętności AI będąc dobrym programistą niż zdobyć umiejętności programistyczne będąc niekodującym lub słabo kodującym praktykiem AI. Następnie należy się skupić na umiejętnościach związanych z samym uczeniem maszynowym. Wszystkie potrzebne materiały i kursy są dostępne w Internecie: na przykład, kursy deeplearning.ai czy polski AI Devs, otwarte wykłady uczelni amerykańskich, jak na przykład MIT, rzesza kanałów na YouTube tłumaczących intuicyjnie zagadnienia matematyczne lub stricte dotyczące AI, na przykład 3Blue1Brown czy kanał Yannica Kilchera, repozytoria publikacji – arxiv.com, otwarte zasoby publikacji z konferencji AI – ICLR, KDD, NeurIPS, ICML, SIGIR i wiele innych. Zwykle pojawia się jednak problem z dostępem do zasobów obliczeniowych. Dlatego obecnie ciężko jest niestety rozwijać AI w przysłowiowym garażu, wskazane jest działanie w ramach jednostki badawczej lub firmy, która posiada wymagane zasoby lub korzystanie z grantów przyznawanych przez operatorów chmur komercyjnych.
Będąc osobą niezwiązaną profesjonalnie z AI, również musimy włożyć pewien wysiłek w edukację, aby zapewnić sobie z jednej strony komfort użycia narzędzi AI, a z drugiej strony bezpieczeństwo. Wskazane jest poznanie technik promptowania, na przykład z pomocą poradnika i biblioteki promptów firmy Anthropic. Pojawiło się niedawno czasopismo poświęcone AI – hAI Magazine, z artykułami na różnych poziomach trudności – od podstawowych do bardziej zaawansowanych. Wielka szkoda, że nie ma, póki co, oficjalnego szkolenia tworzonego przez instytucje państwowe, otwartego dla wszystkich, przedstawiającego korzyści i ryzyka. Istnieją poradniki dla konkretnych grup, np. administracji, ale to nie wystarczy.
Nawet jeśli zupełnie nie chcemy korzystać z AI, to treści przez nią wygenerowane znajdą nas wcześniej lub później. Niezależnie od wszystkiego, polecam zapoznać się z działalnością Instytutu NASK (Naukowa i Akademicka Sieć Komputerowa), który zajmuje się zagadnieniami cyberbezpieczeństwa, w tym AI. NASK jest obecna w mediach społecznościowych i publikuje ciekawe zasoby edukacyjne, jak np. raport „Cyberbezpieczeństwo AI. AI w cyberbezpieczeństwie”.
AI Act – co wiemy już teraz i czego możemy się spodziewać? Czy istnieje niebezpieczeństwo, że takie regulacje wpłyną na innowacyjność i konkurencyjność polskich firm technologicznych?
Wspomniałyśmy już o zagrożeniach płynących z masowego generowania nieprawdziwych treści. Czy AI Act nas przed tym ochroni? Na razie wiemy na pewno, że sama treść AI Actu zawiera niestety wiele niejasności i są one na tyle znaczące, że nie wiadomo, jaka będzie praktyka jego stosowania.
AI Act określa wiele dziedzin zastosowania AI jako systemy wysokiego ryzyka (high risk) – np. AI stosowane w edukacji, zatrudnieniu, zarządzaniu migracją, infrastrukturą krytyczną miast i państw i wielu innych dziedzin życia. Warunki nadzoru tych modeli są opisane bardzo ogólnie. Będą musiały zostać stworzone dla nich osobne instytucje w krajach członkowskich. Nie wiadomo, w jaki sposób będą one działać i jak bardzo kosztowny i czasochłonny będzie proces nadzoru. Można to sobie jednak wyobrazić, obserwując sytuację bieżącą. W tym momencie wymóg certyfikacji dotyczy modeli AI dokonujących diagnoz medycznych, które traktowane są jak wyrób medyczny. Niedawno zrezygnowaliśmy z wykonania projektu z użyciem takiego modelu, ponieważ brakuje jednostek certyfikujących i na samo rozpoczęcie procesu musielibyśmy czekać ponad rok. Wyobraźmy sobie, co się stanie, jeśli większość dostawców systemów AI będzie musiała certyfikować swoje systemy. Rok w dziedzinie AI jest epoką. Jeżeli dojdzie do takiej blokady, cały świat nam ucieknie.
AI Act nakłada też dodatkowe obowiązki regulacyjne na tzw. „modele ogólnego przeznaczenia z ryzykiem systemowym”, do których zaliczają się wielkie modele językowe (LLM), które do trenowania potrzebują wystarczająco dużej liczby operacji zmiennoprzecinkowych (FLOP). Definicja FLOP zawarta w AI Act moim zdaniem stwarza jednak ryzyko nadużyć. Nie wiadomo zatem, które modele realnie będą wpadać w tę kategorię, biorąc pod uwagę fakt, że twórcy będą mieli żywotny interes w wykorzystaniu każdego błędu w definicji do obniżenia raportowanej przez siebie liczby FLOP.
AI Act porozumiewa się z czytelnikiem kryteriami tak ogólnymi i wieloznacznymi, że nie da się udowodnić ich spełnienia, np.: „(…) podmiot ten zapewnia adekwatność i wystarczającą reprezentatywność danych wejściowych (…)”. Czym jest „adekwatność” i kto jest ostateczną instancją do jej oceny? Kary za niedopasowanie się do regulacji są już jednak niezwykle konkretne i bardzo wysokie – np. 35 mln euro lub 7% rocznego obrotu przedsiębiorstwa.
Opisane przeze mnie problemy to tylko wierzchołek góry lodowej. Czy w obliczu takich niejasności można powiedzieć, że AI Act w tym momencie zwiększa nasz komfort, poczucie bezpieczeństwa lub daje nadzieję na bardziej etyczny i zrównoważony rozwój? Niestety, nie. Niepewność przynosi już pierwsze owoce – na przykład, Meta nie udostępni w UE swojego modelu Multimodal Llama (jest to model unikalny, ponieważ przetwarza dane wideo, audio, tekstowe i obrazowe). Mimo że model jest udostępniany w formie otwartego oprogramowania na licencji niekomercyjnej, ryzyko regulacyjne jest zbyt duże. Modele Llama, dzięki swojej otwartej licencji, są świetnym narzędziem do badań i wdrożeń.
Czy Polska ma szansę stać się europejskim hubem AI? Jakie warunki musiałyby zostać spełnione? Czy istnieją jakieś unikalne cechy polskiego ekosystemu AI, które mogą być konkurencyjne na arenie międzynarodowej?
Polska ma potencjał, aby takim hubem się stać – w ciągu ostatnich lat branża IT stała się jednym z koni pociągowych polskiej gospodarki. W związku z tym zostało wykształcone (lub wykształciło samo siebie) szerokie grono specjalistów. Chętnych do rozwoju w branży nie brakuje, kariera w IT jest nieustannie postrzegana jako pożądana. Polscy informatycy dali się poznać jako wiarygodni specjaliści o wysokich umiejętnościach, chętnie dokształcający się i dostarczający kod wysokiej jakości. Mamy więc solidne podstawy. Co do samego AI, uważam, że nie mamy jeszcze wystarczająco dobrej oferty uczelni wyższych. Nie jest to zarzut do wszystkich uczelni, ponieważ część z nich oferuje świetny poziom. Często jednak nawet na solidnych uczelniach zajęcia są na podstawowym poziomie, brakuje omawiania najnowszych trendów badawczych i projektów studenckich skupionych na problemach z bieżących publikacji. Omawiając metody sprzed 15 lat możemy położyć fundament dla zrozumienia obecnych technologii, ale zbyt często te tradycyjne metody grają centralną rolę.
Jeśli chodzi o badania – tworzone są obecnie polskie modele językowe, które będą lub są otwarte do użytku dla wszystkich: Bielik, stworzony przez SpeakLeash, PLLuM, za który odpowiada konsorcjum instytucji badawczych pod przewodnictwem Politechniki Wrocławskiej, czy Qra z Politechniki Gdańskiej. Modele takie najczęściej tworzone są na bazie istniejących modeli open source, jak Llama czy Mistral. Jednostki badawcze, takie jak IDEAS NCBR, prowadzą badania fundamentalne nad AI, przyciągają światowe talenty, a ich prace są prezentowane na najlepszych konferencjach.
Mimo tego wszystkiego, brak jest AI w polskiej strategii rozwoju. Ministerstwo Cyfryzacji rozpoczęło pewne inicjatywy związane z AI, takie jak powołanie zespołu doradczego PL/AI czy ogłoszenie Funduszu AI. Wygląda jednak na to, że wysiłki kierowane są w stronę wspierania wdrożeń AI, a nie tworzenia nowych technologii. Jest to zasadnicza różnica. Wdrażając AI, jesteśmy w stanie wesprzeć konkretne obszary państwa, usprawnić ich działanie, jednak narzędzia których użyjemy, siłą rzeczy będą kupowane od ich zagranicznych twórców. Wdrożenia jako takie nie wspierają rozwoju źródłowej technologii w Polsce. Inaczej mówiąc, nie zbudujemy w ten sposób następcy dla dzisiejszych LLM-ów, tylko będziemy opakowywać i sprzedawać w Polsce technologie wymyślone przez innych.
Na razie nie ma środków dedykowanych temu, abyśmy mieli choć szansę postawić krok przed OpenAI i podobnymi, nie ma też planów lepszego rozliczania naukowców i wspierania doskonałości naukowej (bo jestem zdania, że samo dosypanie pieniędzy do wadliwego systemu nie pomoże).
Jakie są twoim zdaniem najważniejsze globalne trendy w rozwoju AI, które będą kształtować tę dziedzinę i wpływać na polską gospodarkę w najbliższych latach?
Najważniejsze trendy to moim zdaniem:
- systemy wieloagentowe – złożone z wielu LLM-ów, które posiadają zwiększone zdolności do samodzielnej korekcji błędów i poprawiania jakości swojego działania. Badania pokazują, że grupy nawet bardzo prostych agentów pracujących razem w ramach większego systemu osiągają jakość znacznie lepszą niż modele składowe. Być może będą mogły być używane do (prawie) autonomicznego wykonywania złożonych czynności, np. używania wielu programów w sekwencji lub nawet poprawy struktury własnego systemu;
- systemy trenowane w większym kontakcie ze światem fizycznym, w schemacie takim jak np. proponowany przez Yanna LeCuna „World Model” – nauka przewidywania następnego stanu środowiska na podstawie obecnego stanu. Obecne duże modele nie są jeszcze do końca multimodalne (nie przetwarzają danych pochodzących ze wszystkich zmysłów) i trenują raczej na danych statycznych;
- mniejsze modele o zdolnościach porównywanych z dzisiejszymi LLM-ami – trend minimalizacji jest wyraźny i bardzo potrzebny, gdyż fundusze niezbędne do trenowania wielkich modeli są ogromne. Podnoszone są nawet koszty środowiskowe trenowania LLM-ów. Historia minimalizacji modeli jest optymistyczna – np. model DistilBERT, zminimalizowana wersja transformerowego modelu BERT, zachowała 97% wydajności BERT-a przy redukcji rozmiaru o 60%. Wśród LLM-ów również widzimy już pewne zwiastuny sukcesu – np. bardzo dobre działanie modelu GPT-4o mini. Niestety nie wiemy, o ile GPT-4o mini jest mniejszy od GPT-4, ale z pewnością jest dużo mniejszy, co widać choćby po cenie (GPT-4o mini jest ok. 30 razy tańszy, jeśli chodzi o cenę za tokeny wejściowe).
Myślę, że będziemy obserwować również trendy regionalne, związane np. z regulacjami – czyli w kontekście europejskim zobaczymy jakąś odpowiedź twórców modeli na AI Act, np. dążenie do utrzymania się pod progami wyznaczającymi funkcjonalność lub wielkość modeli.
[1] https://www.hbs.edu/ris/Publication%20Files/24-013_d9b45b68-9e74-42d6-a1c6-c72fb70c7282.pdf
[2] https://link.springer.com/chapter/10.1007/978-3-031-64881-6_21
[3] https://docs.anthropic.com/en/docs/build-with-claude/prompt-engineering/prompt-generator
[4] https://haimagazine.com
