ChatGPT

Niet iedereen in mijn omgeving houdt zich op de hoogte van de razendsnelle ontwikkeling op het gebied van A.I. en dat kan ik heel goed begrijpen. De ontwikkelingen gaan zo snel dat het niet bij te houden is maar ik blijf toch graag een beetje op de hoogte. Voor die mensen die geen zin hebben om alles uit te spitten even wat informatie op basis van het artikel van Eva Hofman en Joris Veerbeek uit de Groene Amsterdammer van 8 juni 2023. De chatbot (geautomatiseerde gesprekspartner) ChatGPT wordt sinds een half jaar (Open AI lanceerde de Chatbot GPT-3 in november 2022) intensief gebruikt door journalisten, studenten, en bedrijven. Je stelt een vraag en de computer geeft bijna meteen antwoord. Maar hoe komt die robot aan zijn informatie. De meeste Nederlandse teksten waarop A.I modellen op worden getraind komen uit de database Common Crawl, een soort blauwdruk van het hele internet. Die lijst ( die bedrijven als Google gebruiken) blijkt bol te staan van auteursrechtenschendingen, privé-gegevens en nepnieuws. Wikipedia staat hoog genoteerd, maar ook elke Nederlandse krant en de complotwebsite Stormfront. Ook docplayer.nl (een illegale website) , een van de belangrijkste piratennesten met veel privé-gegevens wordt gebruikt.

Die Chatbot GPT-3 kenden ook Nederlands. Ook de bots van Microsoft, Google met de chatbot Bard en Meta spraken ineens Nederlands en dat is raar omdat populaire chatbots vooral in de VS worden ontwikkeld. Omdat Common Crawl alle talen terug vindt wordt dat bijvangst voor die chatbots maar die slecht wordt gefilterd en daardoor vaker nepfeitjes produceert. Om AI mee te trainen voor het Nederlandstalige internet krijg je problemen met veel troep, schending van het auteursrecht en veel te veel privé gegevens. De meeste websites staan vol met vooroordelen en die worden gewoon overgenomen en uit onderzoek blijkt dat evidente complotwebsites buitensporig veel worden geciteerd. Dat leidt dus tot het verspreiden van vooroordelen, propaganda en verkeerde informatie zonder dat die informatie tot de oorspronkelijke bron is te herleiden. Internetteksten hebben een politieke kleur maar de mensen die AI controleren ook. Daar verzonnen ze bij GPT-3 weer een extra controlemechanisme voor (een algoritme goede teksten voeren, maar wat is dan “goed”).

Het kwaliteitsfilter bij dat GPR-3 over teksten van Common Crawl legt is gebaseerd op drie bronnen, Wikipedia, het Sociale media platform Reddit (Reddit is a network of communities where people can dive into their interests, hobbies and passions. There’s a community for whatever you’re interested in on Reddit) en een grote collectie boeken met onbekende inhoud. Het gevolg: voorkeur voor teksten van de rijke, witte en hoogopgeleide stedelijke Amerikaanse elite. Voor Nederlandse teksten is Open AI’s kwaliteitsfilter een slechte zeef. Er wordt vaker gebruik gemaakt van kwaliteitskranten, maar de teksten van docplayer.nl blijft domineren. Ook websites over games en technologie krijgen de voorkeur. De content van kwaliteitsmedia (NRC, de Volkskrant, De Groene Amsterdammer) wordt gebruikt zonder dat er een cent wordt betaald. Bij een chatbot kun je dus een artikel lezen uit een van deze media zonder bronvermelding. Dat wordt door de kranten en tijdschriften die het treft als een grote dreiging gezien. Pas sinds kort is er Europese wetgeving om uitgevers te beschermen tegen illegaal gebruiken va hun informatie.

Afgelopen april riep de Italiaanse toezichthouder op tot een verbod op ChatGPT omdat het zonder toestemming gegevens verwerkt van internet gebruikers. Privacy waakhonden in Duitsland, Frankrijk en Ierland onderzoeken nu ook of ChatGPT de privacywet schendt. Toen Bard, de chatbot van Google met de kerst op de markt kwam werd hij wereldwijd gebruikt, behalve in Europa. Dat heeft de maken met privacy en auteursrecht. Europa wil echt voorop lopen wat wetgeving betreft en de ethische kant breed reguleren. daar kunnen we alleen maar blij mee zijn.