Factbox: Wat we weten over VS-stresstests van AI-modellen van Google, xAI en Microsoft
In dit artikel:
De Amerikaanse regering onder president Trump heeft op 5 mei aangekondigd dat zij het programma van het U.S. Center for AI Standards and Innovation (CAISI) uitbreidt. Daarmee krijgen overheidswetenschappers toegang tot nog niet publiek uitgebrachte AI-modellen van meerdere grote bedrijven om veiligheids- en risicoanalyses uit te voeren. De deelnemers omvatten OpenAI en Anthropic (die al samenwerkten), en nieuw toegevoegd zijn Google DeepMind, xAI en Microsoft.
Doel van de beoordelingen is het opsporen van concrete risico’s: het misbruik van geavanceerde modellen voor cyberaanvallen op infrastructuur, de ontwikkeling van chemische of biologische wapens, en het corrumperen van trainingsdata. Bedrijven leveren verschillende vormen van toegang. OpenAI werkt bijvoorbeeld met CAISI aan tests voor een variant genaamd GPT-5.5-Cyber, gericht op defensieve cybersecurity. Microsoft ondersteunt de opbouw van gedeelde datasets en werkwijzen; Anthropic leverde zowel publieke als niet-uitgebrachte modellen en uitgebreide documentatie voor 'red-teaming'; DeepMind stelt eigen modellen en data beschikbaar. xAI gaf geen commentaar.
De gezamenlijke tests hebben al kwetsbaarheden blootgelegd — onder meer manieren om veiligheidsmaatregelen te omzeilen en technieken die menselijke controle pretenderen — die bedrijven naar eigen zeggen verholpen hebben. OpenAI ontdekte eerder een lek in zijn ChatGPT Agent dat het mogelijk maakte om systemen op afstand te beïnvloeden en gebruikers te imiteren. In 2023 spraken meerdere techbedrijven al af onafhankelijke experts bio- en cybersecurityrisico’s te laten beoordelen.
Naast lopende tests publiceerde de groep eerder vrijwillige richtlijnen om datalekken en foutieve antwoorden te beperken en werkt zij nu aan teststandaarden voor AI-systemen van vitale infrastructuur zoals communicatie- en hulpdiensten.