Google’s AI-systeem stelde voor om lijm in pizza’s te doen. Zodat kaas beter plakt.
Hoe kan zoiets gebeuren? Welke conclusie kan uit zo’n blunder worden getrokken met betrekking tot kunstmatige intelligentie (AI) en hoe dit toegepast wordt?
Copyright op mijn website
Sinds kort heb ik op websites waar ik origineel materiaal publiceer, zoals dit blog, mijn theologie website en mijn fotowebsite in de footer op alle pagina’s een tekst die de toestemming voor gebruik van teksten en foto’s van mijn site beperkt.
“Het is niet toegestaan artikelen op deze website geheel of gedeeltelijk commercieel te verveelvuldigen waaronder inbegrepen het gebruik voor training van AI-modellen.”
Fair Use
Amerikaanse wetenschappers kijken heel anders tegen AI aan dan veel kunstenaars waaronder musici, schilders, schrijvers, fotografen enzovoorts. Ze halen een Amerikaanse bepaling uit de wet van stal, het principe van ‘fair use’.
– “Others say that training AI models on copyrighted works is fair use. They argue that AI models learn from these works to generate transformative original content, so no infringement occurs. Many scholars and librarians agree that training AI language models on copyrighted works is fair use and essential for research.” (Baylor University)
– “based on well-established precedent, the ingestion of copyrighted works to create large language models or other AI training databases generally is a fair use.” (ARL)
Volgens de fair use-regels van de Amerikaanse auteursrechtwet is het toegestaan om beperkte delen van een werk, inclusief citaten, te gebruiken voor doeleinden zoals commentaar, kritiek, nieuwsverslaggeving en wetenschappelijke rapporten. Zie: US Copyright Office.
Voor niet commercieel en onderwijsgebruik is deze regelgeving zeer ruimhartig.
– The “fair use of a copyrighted work, including such use by reproduction in copies or phonorecords or by any other means specified by that section, for purposes such as criticism, comment, news reporting, teaching (including multiple copies for classroom use), scholarship, or research, is not an infringement of copyright.” (US Copyright Office).
Dit is waar de makers van allerlei systemen voor kunstmatige intelligentie zich op proberen te beroepen. Echter veel bedrijven die zich bezighouden met AI zoals ondermeer Microsoft, Google en Meta zijn verre van ‘non-profit’, wetenschappelijke onderzoeks- of onderwijsinstellingen.
Dat betekent dat (commerciële) training van kunstmatige intelligentie hier niet onder valt. Het fair use concept draait in die gevallen om het begrip ‘beperkt delen’. In de Verenigde Staten zijn daar dan nu ook al rechtszaken over gaande, zoals de zaak van The Times tegen Microsoft.
Wanneer aan een AI-bot complete boekwerken of websites worden ‘gevoerd’ om het te ‘trainen’ en deze data in hun archieven en databases gaat, gebruikt wordt om nieuwe data te genereren maken zij ongeoorloofd een kopie van het origineel én benutten deze kopie om een afgeleid werk te maken.
Afgeleide werken
Deze “afgeleide werken” zijn vaak één-op-één, letterlijke, weergaven van het origineel. Zo stelde de AI-functie van Google voor om lijm te gebruiken om kaas aan een pizza te laten plakken. Hoe kon dát gebeuren? Google pikt “recepten” van Reddit. De AI-bot snapt totaal niet dat lijm niet eetbaar is,..
Dan is de output in mijn ogen ordinaire diefstal. Nog afgezien dat het dus lachwekkend is in dit geval en, in andere gevallen, zelfs gevaarlijk kan zijn. Dit komt omdat AI-bot’s niet weten wanneer er sprake is van humor of sarcasme. Daar is hun kunstmatige intelligentie helemaal niet op ingesteld. Die “lezen” teksten op internet zoals ze op de Biblebelt de Bijbel lezen.. alles wordt volstrekt letterlijk genomen!
Maar waarom is dit diefstal? Al was het maar omdat massa’s mensen hard gewerkt hebben, gestudeerd, geld en tijd gestoken hebben in de originelen op basis waarvan nu de AI ‘gevoed’ wordt.
Daarnaast zijn afgeleide werken niet zondermeer toegestaan. De kans bestaat dat de originele maker van een werk rechten kan uitoefenen hierop en er in die zin dan ook sprake is van inbreuk op het auteursrecht:
– “afgeleide werk kunnen enkel worden geëxploiteerd wanneer de uitdrukkelijke toestemming van de auteur van het oorspronkelijke werk werd bekomen.” (de Auteurs, BE).
– “Elementen waarop auteursrechten rusten mogen niet zonder toestemming worden overgenomen. Op het afgeleide werk kunnen weer nieuwe auteursrechten rusten, indien er voldoende creativiteit is toegevoegd.” (Wikipedia)
AI is soms plagiaat
AI is, of kan, dus soms plagiaat zijn. “Dit komt doordat AI-teksten gebruikmaken van bronnen die niet worden geciteerd.”. (Scribbr). Dat blijkt ook uit het voorbeeld van het pizza-recept van Google. Men kopieert teksten en gebruikt deze zonder correcte bronvermelding.
Om te controleren, vooral van belang in het onderwijs en bij wetenschappelijk onderzoek, of teksten door AI gemaakt zijn, zijn er daarom inmiddels speciale tools die hier op controleren. Ook zijn er websites die kunnen controleren of foto’s en audio door kunstmatige intelligentie zijn gegenereerd.
Als je dus teksten of ‘kunst’ maakt of zelfs programmatuur schrijft met behulp van kunstmatige intelligentie is er een zeker risico dat je plagiaat pleegt, zonder dat je dat weet, en daarmee in sommige gevallen zelfs strafbaar en op zijn minst zeer laakbaar bezig bent.
Afb. https://www.vpnsrus.com/, CC BY 2.0 via Wikimedia Commons
Kunstmatige Intelligentie en Europees copyright
Er zijn in Europa geen regels over ‘fair use’ in het EU-auteursrecht dat vergelijkbaar is met dat van de Verenigde Staten. In plaats daarvan biedt het EU-recht een expliciete lijst met uitzonderingen op auteursrechten die aan de rechthebbenden zijn verleend, elk met een specifieke reikwijdte. Hoewel sommige auteursrechtbeperkingen en -uitzonderingen verplicht zijn voor de lidstaten om te implementeren, kunnen andere door elke lidstaat naar eigen goeddunken worden verleend. (Zie: lexology.com).
Linksom of rechtsom is het de uitbaters van de ‘kunstmatige intelligentie-systemen’ daarom niet toegestaan, ook niet met een beroep op de ‘fair use’-regels uit de USA, boeken en websites van Europese schrijvers, bloggers, tijdschriften en kranten te gebruiken voor de training van AI. Ook fotowebsites, afbeeldingen van schilderijen enzovoorts mogen niet op die manier gebruikt worden.
Mijn expliciete copyright melding kan in dit verband dan ook wat ‘over the top’ lijken maar ik zie het als voorbereid zijn op de toekomst.
Er zal een moment komen, dat is er vast al geweest, dat teksten van mij, en uw, websites, boeken, publicaties, foto’s enz. tóch “gevoerd” zijn aan de AI-bots en er plagiaat gepleegd gaat worden op basis van het werk van u en mij. Dat kan juridisch nog wel eens een flink wespennest worden.
Technische beperking AI bots
Een copyright melding zal door een AI-bot meestal niet herkend worden. Daarom tot slot nog een tip voor een technische beperking.
Als je een website hebt waar je origineel materiaal publiceert kun je een bestandje plaatsen met de naam ‘robots.txt’. Dat is een tekstbestandje, bijvoorbeeld met kladblok gemaakt, waarin je zoekmachines en andere bots wel- of geen toegang verleend tot je website.
Tekstregels die je bijvoorbeeld in de robots.txt kunt opnemen:
User-agent: GPTBot Disallow: / User-agent: ChatGPT-User Disallow: / User-agent: Google-Extended Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Amazonbot Disallow: / User-agent: ClaudeBot Disallow: / User-agent: Omgilibot Disallow: / User-Agent: FacebookBot Disallow: / User-Agent: Applebot Disallow: / User-agent: anthropic-ai Disallow: / User-agent: Bytespider Disallow: / User-agent: Claude-Web Disallow: / User-agent: Diffbot Disallow: / User-agent: ImagesiftBot Disallow: / User-agent: Omgilibot Disallow: / User-agent: Omgili Disallow: / User-agent: YouBot Disallow: /
Ze hóeven er niet aan te gehoorzamen maar het is een good practice. En wanneer je een dergelijke ‘regelgeving’ toevoegt is dat een goed argument ingeval je bij plagiaat of misbruik van jouw originele werk een schadeclaim wilt indienen. Maar bovenal is het bescherming van jóuw werk!