Pepijn Stoop | Een Nederlandse GPT: goed bedacht of slecht gejat?

Pepijn Stoop ,
1 december 2023 - 10:31

Betreft

Kunstmatige Intelligentie UvA Onderzoek

Deel op

ChatGPT krijgt een Nederlands zusje: onderzoeksclub TNO, kenniscentrum voor forensisch onderzoek NFI en ict-onderwijsvereniging SURF steken 13,5 miljoen in GPT-NL. De hoop is dat dit model een ‘transparant, eerlijk en toetsbaar’ alternatief wordt waarmee Nederlandse studenten en wetenschappers kunnen werken. Maar zijn dit haalbare doelstellingen?

Foto: Sara Kerklaan

De aanleiding van het plan voor een Nederlandse GPT zijn zorgen die al langer spelen rondom ChatGPT. Data wordt op grote schaal gebruikt zonder toestemming van de eigenaar en het model is nauwelijks inzichtelijk omdat de Amerikaanse onderneming en bedenker OpenAI het succesvolle recept niet wil prijsgeven.

Willen de GPT-NL onderzoekers voor elk artikeltje gaan betalen? Dan is 13,5 miljoen er snel doorheen

GPT-NL wil het helemaal anders gaan doen: het model zal alleen getraind worden op data waarvoor toestemming is gevraagd. Of waarvan de eigenaar al onder de grond ligt en de eigendomsrechten zijn verlopen. Hierdoor zou voor iedereen duidelijk moeten zijn waar de data van GPT-NL vandaan komt.

Die belofte vind ik te groot. Laat ik vooropstellen dat ik het niet eens ben met de auteursrechtschendingen door OpenAI. Tegelijkertijd kan ik niet ontkennen dat enorme hoeveelheid data die hierdoor wordt verzameld precies de drijvende kracht is achter ChatGPT.

Eerder schreef ik dat ChatGPT is getraind op meer dan 8 miljoen webpagina’s. Stel dat je GPT-NL traint op 1 miljoen Nederlandse pagina’s. Hoe wil je voor al die pagina’s toestemming gaan vragen? Ik zie een callcenter vol studenten die aan de lijn hangen met de Volkskrant en Het Parool. Waarschijnlijk is dit mijn fantasie en zullen er deals gesloten worden, maar kranten en dagbladen zijn geen liefdadigheidsinstellingen. Willen de GPT-NL onderzoekers voor elk artikeltje gaan betalen? Dan is 13,5 miljoen er snel doorheen.

GPT-NL geeft toe dat het budget een schijntje is vergeleken met dat van techreuzen en tempert daarmee de verwachtingen. Maar geen zorgen: de onderzoekers beloven dat de transparantie van hun model dit meer dan goedmaakt.

Als we zo graag een transparant taalmodel willen, kunnen we dan niet beter tijd steken in wetenschappelijk onderzoek naar een ander soort model?

Een volledig transparante ChatGPT? Het gebrek aan transparantie zit in de basisarchitectuur, de legostenen van het model: het blijft lastig om de criteria te achterhalen waarop het model keuzes baseert. Uit onderzoek blijkt dat de transparantie van zelfs de beste grote taalmodellen beroerd is.

Als we zo graag een transparant taalmodel willen, kunnen we dan niet beter tijd steken in wetenschappelijk onderzoek naar een ander soort model dan de zwarte, ondoordringbare doos van ChatGPT? Willen we zoveel manuren steken in een ChatGPT-versie waarvan we het verkooppraatje nu al afzwakken? Zou je als student voor je eigen scriptie voort willen bouwen op een model waarvan je weet dat het qua techniek de state-of-the-art bij lange na niet haalt?

Ik vind dat er oplossingen moeten komen voor de problemen van ChatGPT, maar dat we die niet moeten zoeken in het nabootsen van een model waarvan de basis al onbetrouwbaar is. We hebben zoveel talentvolle studenten en wetenschappers. In dit geval geldt dus: liever goed bedacht dan slecht gejat.

Pepijn Stoop is UvA-student kunstmatige intelligentie.

Lees meer over

Kunstmatige Intelligentie UvA Onderzoek