Niks meer missen?
Schrijf je in voor onze nieuwsbrief!
Foto: Ruben den Harder
opinie

Rens Bod | Big Data leidt tot luie wetenschappers

Rens Bod,
10 januari 2023 - 13:32

De Babylonische methode om systematische data te verzamelen en daarin patronen te zoeken, beleeft op dit moment een Renaissance in de Big Data Science en AI, signaleert columnist Rens Bod. Deze werkwijze heeft geleid tot indrukwekkende toepassingen waarvan ChatGPT de jongste loot aan de stam is. Maar leidt deze methode ook tot een dieper inzicht in de wereld?

Toen de Babylonische koning Nabonassar in de 8e eeuw v.Chr. zijn astronomen de opdracht gaf om alle hemelverschijnselen systematisch te gaan bijhouden, luidde hij het eerste en tegelijkertijd het langstlopende Big Data project ter wereld in. Meer dan zes eeuwen achtereen werden alle planeetbewegingen, zons- en maansverduisteringen (en nog veel meer) vastgelegd op tienduizenden kleitabletten. Maar nog belangrijker waren de ontdekkingen van astronomische patronen in de miljoenen observaties. Zoals de ontdekking van de Saros-cyclus die een 18-jaar durend terugkerend patroon beschrijft in de data en tijdstippen van zons- en maansverduisteringen. Dankzij deze cyclus kunnen astronomen sinds de oudheid met grote precisie toekomstige verduisteringen voorspellen.

 

De Babylonische methode beleeft op dit moment een Renaissance in de Big Data Science en AI. Met een geestdrift zelden vertoond, wordt de zoektocht naar patronen in visuele, talige, muzikale, genetische en andere databestanden ter hand genomen. En aan de hand van deze patronen worden nieuwe verschijnselen voorspeld - of het nu gaat om het voorspellen van de etnische achtergrond van mensen door gezichtsherkenningssoftware, het voorspellen van migratiepatronen door DNA-matching, of het genereren van teksten door ChatGPT via het combineren van zinspatronen uit het World Wide Web tot nieuwe zinnen en teksten.

Sinds de opkomst van de AI lijken veel wetenschappers weer volledig terug te keren naar de werkwijze van de oude Babyloniërs

Maar begrijpen we door de ontdekking van deze statistische regelmatigheden ook hoe etniciteit, migratie of taal werken, of meer in het algemeen, hoe de wereld in elkaar steekt? Nee, de massale zoektocht naar patronen heeft weliswaar succes geboekt, maar deze leidt niet tot een dieper inzicht in de wereld. Zo vonden de oude Babyloniërs alleen de regelmatigheid maar niet het onderliggende principe van zons- en maansverduisteringen. Als ze een ruimtelijke voorstelling hadden gemaakt van zons- en maansverduisteringen waarbij zon, maan en aarde op één lijn staan – zoals de latere Grieken dat deden – dan zouden ze hebben begrepen hoe deze verduisteringen tot stand kwamen en hoe ze konden worden verklaard.

ChatGPT leert ons niets over hoe taal in elkaar steekt of hoe dit softwareprogramma tot zijn output komt

Sinds de oude Grieken, Chinezen en Indiërs zoeken wetenschappers niet alleen naar empirische regelmatigheden maar ook naar diepere principes in de waargenomen data – of het nu gaat om alfaverschijnselen (zoals taal), bètaverschijnselen (zoals de genoemde verduisteringen) of gammaverschijnselen (zoals migratie). Maar sinds de opkomst van de AI lijken veel wetenschappers weer volledig terug te keren naar de werkwijze van de oude Babyloniërs. Ze zoeken niet langer naar de onderliggende principes of mechanismen van migratiestromen, gezichtsherkenning of taalgeneratie, maar stellen zich tevreden met de gevonden patronen in de verzamelde data.

 

Deze werkwijze heeft geleid tot indrukwekkende toepassingen waarvan ChatGPT de jongste loot aan de stam is. Maar ChatGPT leert ons niets over hoe taal in elkaar steekt, en het vertelt ons ook niet hoe dit softwareprogramma tot zijn output komt. Zoals ik in mijn open-access boek World of Patterns betoog, begint alle systematische kennis met patroonzoeken, maar de volgende stap bestaat uit het vinden van de principes waarmee we de gevonden patronen kunnen begrijpen of voorspellen. Deze principes kunnen worden getoetst aan nieuwe empirische patronen waarna de principes eventueel kunnen worden bijgesteld en opnieuw worden getoetst - al is de wetenschappelijke praktijk iets complexer dan ik hier schets.

 

Wat we het afgelopen decennium echter hebben gezien is dat het gebruik van patronen in Big Data zo goed werkt in AI-toepassingen, dat het verder zoeken naar onderliggende principes in het slop is geraakt. Het is voor veel wetenschappers blijkbaar voldoende om grote verzamelingen regelmatigheden af te leiden in plaats van de uitdaging aan te gaan om te zoeken naar een onderliggende theorie. Waarom zouden we onze tijd verdoen met het speuren naar diepere generalisaties tussen talen en de principes van dialogen, als de gevonden taalpatronen zulke prachtige zinnen en teksten genereren?

 

In de astronomie wordt de Saros-cyclus nog steeds gebruikt voor het voorspellen van zons- en maansverduisteringen. Het is een buitengewoon nuttige tool, net als veel tools in de AI, maar het is niet meer dan dat. Voor wetenschappelijk begrip hebben we diepere principes nodig. Afzien van het zoeken naar principes in de ons omringende wereld getuigt niet alleen van kortetermijndenken, maar is de ultieme vorm van intellectuele luiheid.

 

Rens Bod is hoogleraar Digital Humantities aan de UvA.