Magda Melnyk: Jednym słowem, jest Pan człowiekiem, który posprzątał Internet.
Mirosław Sopek: Ojej, to bardzo przesadne stwierdzenie. Internet to jest jednak tak ogromna przestrzeń, że byłoby ciężkim przypadkiem braku pokory i skromności gdybym przyznał Pani rację. My zajmujemy się tylko taką jego częścią, która poprzez różne techniki wprowadza do niego trochę więcej znaczeń, wiedzy i inteligencji.
Magda Melnyk: Mam wrażenie, że oprócz przygotowania ścisłego – bo jest Pan fizykiem kwantowym – to zamiłowanie do semantyki czyli językoznawstwa, w jakiś sposób pomogło Panu w rozwiązaniu problemu sukcesywnego sprzątania Internetu.
Mirosław Sopek: Rzeczywiście, w 2008 roku, czyli rok po wejściu na giełdę, po raz pierwszy zaistniały możliwości, żeby przeznaczyć część zasobów firmy na bardziej rozwojowe projekty. To właśnie wtedy pojawiło się zagadnienie semantyki danych, czyli znalezienia sposobu na ich bardziej inteligentne publikowanie. Aby – tak jak Pani powiedziała – troszeczkę uporządkować ten chaos, nadać mu nieco struktury i dodać znaczeń. Decydująca stała się w tym procesie nasza bezpośrednia współpraca z Google, w ramach której stworzyliśmy dwa rozszerzenia (z ang. extension) ich języka do opisywania zasobów w sieci Web. Zbudowane przez nas rozszerzenia dotyczyły dwóch gałęzi przemysłu: rynku motoryzacyjnego (w którym Makolab jest bardzo mocny) oraz bankowości. Oba stworzone przez nas rozszerzenia niezmiennie plasują się na szczycie światowych zainteresowań. Tym samym nasza praca została zastosowana w systemie „schema.org”, współtworzonym przez Google, przy stworzeniu dwóch słowników – jeden się nazywa „autos” (czyli samochody), a drugi nosi nazwę: „banks and finacial institiution”.
Oprócz Google pracowaliśmy także dla Komisji Europejskiej, robiąc podobne rzeczy z regulacjami finansowymi. Obecnie, zarządzamy znaczącymi ontologiami, czyli mechanizmami opisu znaczeń – bo tak jak ontologia w filozofii – tak ontologia w computer science jest opisem jakiejś rzeczywistości. Jednak wracając do Pani pytania czy posprzątanie Internetu jest w ogóle możliwe? Jest taka wspaniała książka „Too Big to Know” Davida Weinbergera o Internecie. Sam tytuł już mówi dużo, i tak właśnie jest dzisiaj, Internet jest zbyt duży, aby można było go „znać”, a tym bardziej „posprzątać”. W praktyce, jak popatrzymy na tą całą domenę, to nie do końca wiadomo, która z tych technologii spowoduje, że ta sieć będzie inteligentniejsza i bardziej przystępna dla człowieka.
Magda Melnyk: W jaki sposób pomagają w uporządkowaniu Internetu mechanizmy sztucznej inteligencji oraz uczenie maszynowe?
Mirosław Sopek: Owszem, one pomagają, ale jeśli mamy jakąś domenę, która jest bardzo rozległa z dużą ilością informacji to poza zdolnością do jej przetwarzania, dążymy do jej uporządkowania, np. w postaci słownika pojęć. Nie jest to zadanie łatwe, jeśli ta domena „żyje”, czyli rozwija się w czasie rzeczywistym, jest dynamiczna, i pracują nad nią tysiące ludzi na świecie. Z prośbą o „posprzątanie” takiej „żywej” domeny zwróciła się do nas Komisja Europejska. Chodziło o zaprowadzenie ładu w bazie EURO-LEX gromadzącej europejskie akty prawne dotyczące regulacji finansowych.
W Unii Europejskiej nie istnieje coś takiego jak prawo europejskie, są dyrektywy, które dopiero w wyniku pewnego procesu, stają się prawem w krajach europejskich. Wszystkie te akty i dyrektywy są sukcesywnie gromadzone w tym EURO-LEX-ie. Jest tam kilkadziesiąt tysięcy dokumentów, które mają wpływ na domenę odpowiedzialną za regulacje finansowe. Krótko mówiąc: Za co ja, będąc w konkretnym banku, jestem odpowiedzialny w procesie raportowania, Co dokładnie powinienem raportować? W jaki sposób mam rozumieć te pojęcia, którymi powinienem opisywać moje obroty, transakcje etc. (których jest niemało) tak aby były zrozumiałe dla różnych regulatorów?
Aby rozwiązać problem z jakim przyszła do nas pewna agencja Komisji Europejskiej wykorzystaliśmy w projekcie typu „dowód poprawności koncepcji” metody łączące machine learning i sztuczną inteligencję z narzędziami ontologicznymi i semantycznymi ucząc algorytmy rozpoznawania definicji. Nie było to zadanie łatwe, ponieważ w wielu przypadkach nie chodziło o trywialne: „is defined by”. W dokumentach prawnych takie definicje pojawiają się w bardzo różnych miejscach, ubrane w inne słowa i konstrukcje semantyczno-gramatyczne. I tu rzeczywiście metody uczenia maszynowego bardzo pomagają. Pozwoliły nam zbudować słownik, który jest rozpoznawalny przez ludzi. A więc metody sztucznej inteligencji są dzisiaj pomocne w procesie porządkowania danych. To jest jedna z metod.
Druga ciekawa metoda, którą ostatnio próbujemy rozwijać to czyste, maszynowe uczenie i relatywnie proste mechanizmy sztucznej inteligencji. Niestety działają one nieco jak przysłowiowe „czarne skrzynki”. Uruchamiamy algorytm, dostajemy jakiś wynik i tak naprawdę nie wiemy, dlaczego zadziałał w ten sposób, dlaczego zostaliśmy tak sklasyfikowani, tak wybrani, etc. Podam przykład, może banalny: dużo osób ogląda Netflix, który za pomocą sztucznej inteligencji, sugeruje nam filmy na podstawie tego, co oglądaliśmy, tak? Ale dlaczego te a nie inne? No i tutaj są bardzo różne doświadczenia i brak rozumienia „dlaczego”…
Magda Melnyk: No ja mam bardzo złe. Mam wrażenie, że Netflix mnie nie rozumie.
Mirosław Sopek: No właśnie, a na przykład, zdecydowanie lepszy algorytm, w innej domenie posiada Spotify. W praktyce jest po prostu genialny! Ale do czego zmierzam: tak naprawdę nie wiemy, ani co decyduje w Netflixie ani co w Spotify. Sugestie w obu systemach są wynikiem uczenia maszynowego i nikt nie potrafi tego zracjonalizować.
Gary Marcus, guru sztucznej inteligencji uważa, że powinniśmy stworzyć AI od nowa i wielu czołowych specjalistów z tej dziedziny zgadza się z jego diagnozą. Widać, że to co w rozwoju sztucznej inteligencji zostało zapomniane, to właśnie semantyka, czyli jedna z metod stosowanych w tzw. klasycznej sztucznej inteligencji, którą czasami nazywa się GOFAI, czyli Good Old-Fashioned AI. Te „stare” metody zostały porzucone, ponieważ sukces sieci neuronalnych i maszynowego uczenia okazał się oszałamiający. Problem w tym, że one na końcu dały nam takie tworki, które nawet i dobrze coś przewidują, ale jak ktoś zapyta: „dlaczego?” i „co za tym stoi?”, to nie otrzyma odpowiedzi.
To nie jest tylko problem pragmatyczny, to jest problem fundamentalny, bo jeżeli nie będziemy rozumieć co i dlaczego nam te algorytmy dają, na takim zwykłym, intelektualnym poziomie, to możemy zostać przez nie pokonani! Mamy w naszej firmie taki kierunek rozwoju, konceptualny system KNOW-ML, czyli Knowledge and Machine Learning, który w pewnym stopniu łączy te dwa światy. Próbujemy pokazać, że można zrobić „lepszą” sztuczną inteligencję, poprzez „ożenienie” jej z takimi rozwiązaniami jak knowledge representation i knowledge graphs. I to jest niewątpliwie część naszej działalności badawczo-rozwojowej w MakoLabie.
Magda Melnyk: Czy pandemia w jakiś sposób wpłynęła na Państwa pracę?
Mirosław Sopek: Oj, ogromnie. Wie pani, z jednej strony pandemia jest nieszczęściem dla świata, ale firmy takie jak MakoLab, nagle cieszą się dużym zainteresowaniem, bo ludzie zaczynają rozumieć, że bez techniki cyfrowej w ogóle wszystko musielibyśmy zamknąć. To jest dość nietypowy moment, w którym człowiek źle się z tym czuje, bo patrząc z moralnej perspektywy nie sposób się cieszyć z pandemii. Ale z drugiej strony, wie pani, biznes „cyfrowy” rośnie, tak? Ja na to patrzę trochę z niepokojem, bo w obszarze całkowicie cyfrowych działań gubi się fundamentalny czynnik jakim jest interakcja człowieka z człowiekiem w normalnym świecie i związane z nią mechanizmy – dotychczas niezauważalne – których nagły brak zaczyna nam coraz bardziej doskwierać.
Podam przykład, jest taki wielki amerykański biznesman, który stworzył jedną z tych wielkich firm, związanych z platformami komunikacyjnymi. Działa w Oakland, w Kalifornii. Gdy pytano go jak zarządza firmą, zawsze odpowiadał: „Kieruję się jedną dewizę – zarządzanie przez chodzenie” („I have only one mantra – management by walking”). Zarządzał firmą nie poprzez spotkania, ale chodząc po firmie i prowadząc z pracownikami luźne rozmowy. Gdy sam po raz pierwszy pojechałem w 1998 roku do Microsoft, to kilku menadżerów powiedziało mi, że Bill Gates zna prawie każdego w firmie. Bardzo mnie to zdumiało: „To jest niemożliwe, przecież was tu jest ponad 20 tysięcy”, a oni na to: „To byś się zdziwił jak dalece on zna ludzi i jak potrafi rozmawiać ze wszystkimi”.
Magda Melnyk: To trochę jak Ford w jego fabryce samochodów…
Mirosław Sopek: Tylko, że dawniej nie było innych metod, ale w 1998 roku był już Internet a wraz z nim technologia cyfrowa i wszechobecna komunikacja. Mimo to nadal wszystkie narzędzia, które mamy do dyspozycji w komunikacji cyfrowej, nie są wyposażone w podstawowe cechy, które w naszych bezpośrednich kontaktach mają znaczenie. Na przykład, kiedy mamy spotkanie firmowe, w którym bierze udział 30 osób, to jednym z ważnych ich elementów w świecie realnym było to, że gromadziliśmy się wszyscy w dużej sali konferencyjnej, rozmawialiśmy, a ja mogłem powiedzieć do kogoś kto siedział obok mnie, na przykład: „Słuchaj, to dotyczy twojego zespołu, powiedz coś”! Niby drobiazg, ale my tych narzędzi obecnie nie mamy. Teoretycznie istnieją czaty i coś próbujemy z tym zrobić, ale to wszystko jest jeszcze bardzo niedojrzałe.
Ponadto, wydaje mi się, że największy problem jaki obecnie istnieje w technologii cyfrowej, problem mocno zaobserwowany podczas pandemii, to problem identity, czyli kwestia naszej tożsamości w sieci. Jest autentyczną tragedią, że wszystkie te systemy, które miały nam zapewnić bezpieczeństwo i wiarygodność w sieci z jakiegoś powodu się nie powiodły. Na przykład, podpis cyfrowy, wszyscy wiemy, że coś takiego istnieje. Ale czy Pani go używa?
Magda Melnyk: Nie.
Mirosław Sopek: Ale przecież istnieje taka infrastruktura w Polsce, i teoretycznie, jeśli posiada się podpis cyfrowy to można założyć firmę w systemie S24 uruchomionym przez Ministerstwo Cyfryzacji. Ja próbowałem to zrobić dla zasady, ale w praktyce nie jest to możliwe. Jak to jest, że mamy podpisy cyfrowe, a nie możemy podpisać zwykłego oświadczenia woli. Tu błąd, tam błąd, ciągle coś nie tak… Prawda jest taka, że nie ma dobrego sposobu – w Polsce mamy tzw. Profil Zaufany, który w niektórych miejscach działa, ale nie w pełni i nie wszystko załatwia. Jaki to ma skutek? Na przykład taki, że jest bardzo łatwo w tym świecie cyfrowym komuś ukraść tożsamość!
Ja ostatnio straciłem całą pensję, bo ktoś napisał maila do księgowości, że rzekomo zmieniłem konto i moja wypłata poszła do nie wiadomo kogo, a teraz policja i prokuratura badają sprawę. To jest po prostu niewiarygodne jak łatwo było to zrobić. Mimo tego, że od wielu lat mamy infrastrukturę podpisu cyfrowego i wiele innych rozwiązań, to ochrona tożsamości w sieci pozostaje fundamentalnym problemem. Podstawowe wyzwanie „Jak ja chronię swoją tożsamość w sieci?” jest nadal istotnym, nierozwiązanym problemem. My troszeczkę w tej przestrzeni próbujemy działać, mam np. taki start-up w Stanach, który zajmuje się ochroną tożsamości dla firm, ale to jest tak wielkie zagadnienie, że przekracza możliwości jednego zespołu. I tutaj nie ma łatwych rozwiązań. Dlaczego na przykład ten profil zaufany jest niedobry? Bo jest scentralizowany przez rząd i tutaj nie chodzi o to jaki teraz mamy rząd, choć akurat taki mamy jaki mamy i to też jest groźne. Ale chodzi oto, że nasza tożsamość jest scentralizowana u kogoś i to nigdy nie jest dobre. Na przykład, gdy wybuchła II wojna światowa i Niemcy okupowali Holandię, to przejęli ich „wspaniały” system identyfikacji osób i wyłapali wszystkich Żydów od razu. Dlaczego? Otóż kilka bardzo prostych zasad systemów identyfikacji nie było spełnionych.
Magda Melnyk: Jednak mimo dużych niedociągnięć komunikacja cyfrowa w pandemii okazała się zbawienna.
Mirosław Sopek: Gdyby jej nie było, to w ogóle byłaby dziś katastrofa., To że możemy przez Internet zamawiać w restauracjach, mimo że są one w świecie realnym zamknięte i one jeszcze jakoś funkcjonują, to jest cudowne. To, że tyle nowych sklepów internetowych powstało, pomogło przetrwać wielu biznesom. Ale jest cała masa problemów, na które przestrzeń cyfrowa jest niegotowa, nieprzyzwyczajona i jeżeli się czegoś z tym nie zrobi, czyha na nas wiele potencjalnych zagrożeń.
Dr Mirosław Sopek – jest absolwentem Wydziału Fizyki Technicznej i Matematyki Stosowanej Politechniki Łódzkiej. Tytuł doktorski otrzymał na Wydziale Chemicznym w zakresie Chemii Teoretycznej. Pracował jako asystent i wykładowca na Politechnice Łódzkiej (modelowanie molekularne), Akademii Humanistyczno-Ekonomicznej (e-commerce/kryptografia) oraz w Szkole Filmowej w Łodzi (grafika komputerowa).
Od marca 2008 pełni funkcję Wiceprezesa Zarządu MakoLab SA ds. technologii. Był także prezydentem Chemical Semantics, Inc. z siedzibą w Gainesville, na Florydzie (USA). Od 2016 roku zarządza amerykańskim oddziałem MakoLab a w roku 2018 uruchomił start-up LEI.INFO działający w obszarze identyfikacji cyfrowej firm. W roku 2020 wraz z partnerami z USA, Chin i Polski uruchomił nowy startup: Quantum Blockchains, Inc. Pod jego kierunkiem spółka MakoLab przekształciła się w Agencję Rozwiązań Cyfrowych (Digital Solutions Agency).
Jest członkiem zarządu Fundacji Monumentum Iudaicum Lodzense w Łodzi oraz założycielem wydawnictwa World Without End Publishing popularyzującego nietypowe przekłady biblijne na język polski w formach książkowych, cyfrowych, audiobooków oraz teatralnych.
W tym roku dr Mirosław Sopek był gościem Igrzysk Wolności 2020. Wraz z Jackiem Łęgiewiczem, Kamilą Sidor oraz Marcinem Zmaczyńskim wziął udział w panelu: „Jak pandemia wpłynie na rozwój gospodarki cyfrowej?” prowadzonym przez Sylwię Czubkowską.
https://vimeo.com/477296791
Transkrypcja: Tosia Wiatr, Sylwia Barciś, Gaja Staroń
Autor zdjęcia: Markus Spiske
