Niks meer missen?
Schrijf je in voor onze nieuwsbrief!
Foto: Marc Kolle
wetenschap

ChatGPT werkt het beste voor talen van economisch welvarende landen

Sija van den Beukel,
26 mei 2023 - 16:15

Hoe fantastisch ChatGPT werkt, hangt af van de taal die je gebruikt. Het algoritme blinkt uit in talen van economisch welvarende landen, talen van ontwikkelingslanden vallen vaak nog buiten de boot. Hoogleraar Christof Monz werkt aan manieren om het algoritme taalonafhankelijk te maken. 

Vraag je ChatGPT-4 wat het duurste schilderij van Karel Appel is, dan is het antwoord: ‘Woman Children Animals ter waarde van 750.000 dollar.’ Stel je dezelfde vraag in het Engels dan zegt de chatbot: ‘Two birds and a flower, which was sold for 1,1 million dollar.’ In het Swahili doet het algoritme er nog een schepje bovenop: ‘Vive la France ter waarde van 4,8 miljoen euro.’ Dat laatste schilderij blijkt niet eens een schilderij van Karel Appel te zijn.

 

Met het voorbeeld wil hoogleraar Language Technology Christof Monz twee dingen illustreren. Een: ChatGPT is lang niet altijd betrouwbaar. En twee: de betrouwbaarheid is afhankelijk van de taal die je gebruikt.

Foto: Kirsten van Santen

ChatGPT heeft namelijk een enorme hoeveelheid data nodig voor zijn training. Hoe meer data het tot zijn beschikking heeft, hoe slimmer het wordt. Monz: ‘Voor een taal waar weinig data beschikbaar is, is het alsof je met hele grote hersenen alleen maar kinderboeken leest. In die talen is het algoritme dus minder intelligent.’

 

‘Grote’ en ‘kleine’ talen

En dus zorgt ChatGPT voor ongelijkheid, stelt Monz. Het algoritme is namelijk hoofdzakelijk getraind met Engelse teksten, gevolgd door het Chinees, Spaans en andere talen van economisch welvarende landen. ‘Van deze “grote” talen - gezien vanuit AI-perspectief - zijn er hooguit tweehonderd, terwijl er op de wereld zevenduizend talen worden gesproken.’

 

De ‘kleinere’ talen, zoals het Bengaals of verschillende Afrikaanse talen, hebben dus het nakijken als het gaat om de kwaliteit van ChatGPT, terwijl die talen soms meer gebruikers hebben. Monz: ‘Daarnaast zou taalonafhankelijkheid ook helpen voor gelijke toegang voor informatie. Dan zijn we niet afhankelijk van bronnen zoals de NOS om informatie te lezen over andere landen. En kun je het nieuws uit andere landen direct lezen via kranten of sociale media.’

‘Voor een taal waar weinig data beschikbaar is, is het alsof je met hele grote hersenen alleen maar kinderboeken leest’

Monz kreeg in 2020 voor zijn onderzoek een Vici-onderzoeksbeurs en ontwikkelt nu modellen die ‘over taalbarrières heen’ kunnen kijken en zo in staat zijn om taalonafhankelijke antwoorden te produceren. Daarvoor maakt Monz gebruikt van menselijke vertalingen en taalparen. Kan een Arabisch-Franse vertaling via een Frans-Nederlandse vertaling ook wat zeggen over een Arabisch-Nederlandse vertaling? ‘Dat proberen we nu voor zo’n tien tot twintig talen. In het ideale gevallen vinden we een universeel patroon voor zinnen in verschillende talen met dezelfde betekenis.’

 

Somber

Dat onderzoek zal geen nieuwe versie van ChatGPT opleveren, daarvoor loopt de grote techbedrijven in budget en beschikbare informatie veel te ver voorop. ‘Promovendi worden daar wel eens somber van, hoe kunnen we daar ooit tegenop? En worden alle problemen niet al opgelost?’ Toch liggen er nog wel degelijk onderzoeksvragen, ChatGPT is nog lang niet perfect. Monz: ‘We kunnen hopelijk een kleine bijdrage leveren aan betere vertaalsystemen die ChatGPT kan integreren.’

 

Christof Monz spreekt donderdag 1 juni om 16:30 uur zijn oratie Betekenisvolle taaltechnologie: van patronen naar betekenis en terug uit in de Aula (Oude Lutherse Kerk). De oratie is vrij toegankelijk.