Jeśli celem osoby zajmującej się analizą tekstów stworzonych przez naukowców jest dotarcie do prawdy, jej obowiązkiem jest działać tak, jakby była wrogiem wszystkiego, co czyta… atakować owe treści z każdej strony. W trakcie prowadzenia krytycznej analizy powinna także podchodzić do własnej percepcji z rezerwą, by uniknąć wpadnięcia w pułapkę albo uprzedzeń, albo pobłażliwości.
– Ibn al-Haytham (965-1040 p.n.e.)
Nauka stoi w obliczu kryzysu danych. W ubiegłym roku, w samych naukach biomedycznych opublikowano ponad 1,2 mln nowych artykułów, co łącznie daje ponad 26 mln recezowanych artykułów biomedycznych. Jednak przeciętny naukowiec czyta jedynie około 25 artykułów rocznie. Tymczasem, jakość literatury naukowej spada. Najnowsze badania pokazują, że większość artykułów biomedycznych nie nadawała się do dalszego wykorzystania.
Podobne wyzwania związane ze zbyt wielką liczbą a zarazem zbyt niską jakością są zakorzenione w ograniczonych zdolnościach ludzkiego umysłu. Naukowcy tworzą hipotezy w zakresie coraz mniejszych wycinków naszej kolektywnej wiedzy, w efekcie czego coraz częściej zadają złe pytania lub stawiają pytania, na które już znaleziono odpowiedź. Ponadto, ludzka kreatywność zdaje się coraz bardziej zależeć od stochastyczności uprzednich doświadczeń – konkretnych wydarzeń z naszego życia, które pozwalają dostrzec badaczom coś, czego inni nie widzą. Choć przypadek zawsze był istotnym czynnikiem w zakresie odkryć naukowych, obecnie odgrywa on dużo większą rolę niż powinien.
Strategią, która wydaje się obiecująca w obliczu obecnego kryzysu, może być zintegrowanie maszyn i sztucznej inteligencji (SI) z procesem naukowym. Maszyny dysponują lepszą pamięcią i większymi zdolnościami obliczeniowymi niż umysł człowieka. Automatyzacja procesu naukowego mogłaby znacznie zwiększyć zakres odkryć naukowych. Mogłaby nawet stać się przyczynkiem do nowej naukowej reowulcji. Ta wielka szansa pociąga za sobą jednak równie ważne pytanie: czy odkrycia naukowe mogą zostać zautomatyzowane?
Sądzę, że mogą, jeśli wykorzystane zostanie podejście znane nam już od wieków. Odpowiedź na powyższe pytanie możemy znaleźć w pracach Franciszka Bacona, XVII-wiecznego angielskiego filozofa i prekursora nowożytnej nauki.
Pierwsze próby odświeżenia metody naukowej sięgają wielu wieków wstecz i takich muzułmańskich myślicieli jak Ibn al-Haytham, który podkreślał zarówno znaczenie empiryzmu, jak i eksperymentu. Jednak to właśnie Bacon po raz pierwszy opracował metodę naukową i uczynił ją przedmiotem badań. W swojej publikacji „Novum Organum” (1620) zaproponował model dokonywania odkryć, który wciąż jest znany pod jego nazwiskiem. Opowiadał się przeciwko sylogistycznej logice naukowej syntezy, którą uważał za zawodną. Zamiat tego, postulował podejście, w ramach którego adekwatne informacje dotyczące danego zjawiska są systematycznie zbierane, zestawiane w tabeli i obiektywnie analizowane za pomocą logiki indukcyjnej w celu wytwarzenia ogólnych idei. W jego opinii, prawda może zostać odkryta jedynie, gdy umysł jest wolny od niepełnych (a zatem fałszywych) aksjomatów.
Metoda Bacona podejmowała próbę usunięcia logicznej tendencyjności z procesu obserwacji i konceptualizacji poprzez nakreślenie poszczególnych kroków naukowej syntezy i optymizację każdego z nich z osobna. Wizja Bacona miała na celu wykorzystanie grupy obserwatorów w celu zebrania dużej liczby informacji dotyczących natury i ujęcie ich w centralny rejestr dostępny dla analizy indukcyjnej. W „Novum Organum” Bacon pisał: „Empirycy są jak mrówki – zbierają i utylizują. Racjonaliści tkają sieci niczym pająki. Najlepszą metodą jest sposób działania pszczoły – coś pomiędzy zbieraniem istniejących materiałów a wykorzystywaniem ich”1.
Metoda Bacona jest obecnie rzadko stosowana. Okazała się zbyt pracochłonna i szalenie kosztowna, a jej technologiczne zastosowanie było niejasne. Niemniej jednak, w owym czasie próba sformalizowania metody naukowej była krokiem rewolucyjnym. Zanim się ona pojawiła, nauka miałą charakter metafizyczny, dostępny jedynie nielicznym uczonym, głównie szlacheckiego pochodzenia. Poprzez odrzucenie autorytetu starożytnych Greków i nakreślenie kroków niezbędnych do dokonywania odkryć, Bacon stworzył szablon, który pozwalał każdemu stać się naukowcem, niezależnie od wyszktałcenia i pochodzenia.
Obserwacje Bacona ujawniły także istotną a ukrytą dotychczas prawdę: proces odkrywania jest z natury algorytmiczny. Jest on efektem skończonej liczby kroków, które są powtarzane dopóki nie zostanie odkryty znaczący rezultat. Bacon wprost posługiwał się słowem „maszyna” opisując swoją metodę. Jego naukowy algorytm skłądał się z trzech kluczowych elementów: po pierwsze, obserwacje muszą zostać zebrane i zintegrowane w całościowym korpusie wiedzy. Po drugie, owe obserwacje są wykorzystywane w celu generowania nowych hipotez. Po trzecie, hipotezy te są testowane za pomocą dokładnie zaprojektowanych eksperymentów.
Jeśli nauka ma charakter algorytmiczny, musi się wniej kryć potencjał do automatyzacji. Jednak futurystyczne marzenie przez dekady umykało naukowcom zajmującym się informacjami i komputerami – w dużej mierzez dlatego, że trzy kroki do naukowego odkrycia zajmowały zgoła różne płaszczyzny. Obserwacja ma charakter zmysłowy; generowanie hipotez – umysłowy; prowadzenie eksperymentów – mechaniczny. Zautomatyzowanie procesu naukowego wymaga zatem efektywnej inkorporacji maszyn na każdym z tych kroków, aby wszystkie trzy etapy oddziaływały na siebie bez zbędnych tarć. Nikt jeszcze nie wymyślił, jak to zrobić.
W ostatnim czasie, etap eksperymentowania odnotował najbardziej widoczny postęp. Na przykład przemysł farmaceutyczny powszechnie wykorzystuje wysokoprzepustowe platformy do projektowania leków. Kalifornijskie start-upy takie jak Transcriptic czy Emerald Cloud Lab tworzą systemy do automatyzowania wszystkich zadań wykonywanych przez biomedyków. Naukowcy mogą zgłaszać swoje eksperymenty (które wymagają intensywnego prowadzenia doświadczeń, jak choćby w zakresie biologii molekularnej czy inżynierii chemicznej) online, gdzie są one konwertowane na kody i wprowadane na platformy robotyczne. Analogiczne metody mogą zostać zastosowane także w innych dziedzinach zajmujących się pracą na dużych ilościach danych, a nawet rozszerzyć zakres ich aplikacji na dyscypliny czysto teoretyczne.
Zautomatyzowany proces generowania hipotez jest na mniej zaawansowanym poziomie, jednak prace Dona Swansona z lat 80-tych XX wieku poczyniły istonty krok naprzód. Udowodnił on istnienie ukrytych połączeń pomiędzy niezwiązanymi ze sobą pojęciami w literaturze naukowej – używając prostego schematu opartego na logice dedukcyjnej, był w stanie połączyć ze sobą artykuły naukowe z różnych dziedzin unikając powtarzania się cytatów. W ten sposób Swanson zdołał m.in. wyprowadzić hipotezę o nieznanym dotychczas połączeniu pomiędzy dietetycznym oleju rybim a syndromem Raynauda bez konieczności prowadzenia jakichkolwiek eksperymentów, czy byciem ekspertem w danej dziedzinie. Inne, bardziej współczesne nam podejścia (jak np. Andriej Rzhetski z Uniwersytetu w Chicago czy Albert-László Barabási z Northeastern University) bazują na modelowaniu matematycznym i teorii grafów. Wykorzystują one duże biory danych, w których wiedza postrzegana jest jako sieć, w której węzły są konceptami, a połączenia są związkami pomiędzy nimi. Owe nieznane dotąd hipotezy ukazują się wówczas jako nieodkryte połączenia pomiędzy węzłami.
Krokiem stanowiacym największe wyzwanie w procesie automatyzacji jest to w jaki sposób zbierać rzetelne obserwacje naukowe na dużą skalę. Obecnie nie istnieje żaden centralny bank danych, który zawierałby w sobie całość naukowej wiedzy wytworzonej przez ludzkość na poziomie obserwacji. Naturalne przetwarzanie języka poczyniło krok naprzód do punktu, w którym może automatycznie wyodrębniać nie tylko związki, ale też kontekst z artykułów naukowych. Niemniej jednak, kluczowi wydawcy naukowi nałożyli surowe ograniczenia na narzędzia do eksploracji tekstów. Co więcej, treść wielu artykułów skłania się w stronę naukowych interpretacji (lub błędnego ich postrzegania) i zawiera zsyntezowane złożone koncepty i metodologie, które trudno jest wyodrębnić i poddać analizie ilościowej.
Niemniej jednak, najnowsze osiągnięcia w zakresie przetwarzania i sieciowych baz danych sprawiają, że metoda Bacona nabiera charakteru praktycznego po raz pierwszy w historii. Nawet zanim okrycia naukowe będą mogły zostać zautomatyzowane, wykorzystanie podejścia Bacona może okazać się wartościawe w sytuacji, gdy czysty redukcjonizm dotrze do granic swojej użyteczności.
W erze big data, umysł człowieka zwyczajnie nie jest w stanie wystarczająco skutecznie zrekonstruować wysoce złożonych zjawisk naturalnych. Współcznesna metoda Bacona, która wykorzystuje idee redukcjonistyczne za pośrednictwem eksploracji danych, a następnie analizuje te informacje poprzez modele indukcyjne, ma potencjał by dokonać trasformacji naszego pojmowania świata naturalnego. Takie podejście umożliwiłoby nam generownie nowych hipotez, które będą miały większą szansę okazać się prawdziwymi, weryfikować owe hipotezy i wypełniać luki w naszej wiedzy. Byłoby również niezwykle potrzebnym przypomnieniem czym naprawdę powinna być nauka: anty-autorytarnym, całkowicie wolnym poszukiwaniem prawdy
Artykuł pierwotnie ukazał się w języku angielskim na: https://aeon.co/ideas/science-has-outgrown-the-human-mind-and-its-limited-capacities
Przełożyła Olga Łabendowicz
1Tłumaczenie własne.