OpenAI zoekt praktijkvoorbeelden om AI-agenten te trainen

6

OpenAI vraagt actief om echte werkopdrachten van aannemers om zijn AI-modellen van de volgende generatie te vergelijken met menselijke prestaties. Het bedrijf vraagt ​​aannemers om eerdere of huidige werkresultaten (documenten, presentaties, spreadsheets en zelfs codeopslagplaatsen) te uploaden als trainingsgegevens. Dit initiatief lijkt een kernonderdeel te zijn van OpenAI’s streven naar kunstmatige algemene intelligentie (AGI), waarbij AI-systemen de menselijke capaciteiten in economisch waardevolle taken overtreffen.

Menselijke prestaties als basislijn

OpenAI heeft tot doel een kwantificeerbare menselijke basislijn voor verschillende taken vast te stellen. Door AI-outputs te vergelijken met daadwerkelijke menselijke werkmonsters, kan het bedrijf de voortgang van zijn modellen beoordelen. Aannemers wordt gevraagd gedetailleerde beschrijvingen te geven van de taken en de bijbehorende deliverables – het voltooide werkproduct. Deze aanpak geeft prioriteit aan authenticiteit, waarbij OpenAI expliciet vraagt ​​om ‘echt werk op de werkvloer’ in plaats van om simulaties.

Vertrouwelijkheidsproblemen

Ondanks instructies om gevoelige gegevens te verwijderen, brengt deze praktijk aanzienlijke juridische risico’s met zich mee. Intellectueel eigendomsadvocaat Evan Brown waarschuwt dat AI-laboratoria te maken kunnen krijgen met claims wegens verduistering van handelsgeheimen als vertrouwelijke informatie lekt. Aannemers die werkmonsters delen, zelfs na anonimisering, kunnen geheimhoudingsovereenkomsten met eerdere werkgevers schenden. OpenAI erkent zelf de noodzaak om vertrouwelijke gegevens te scrubben en verwijst hiervoor zelfs naar een interne tool, ‘Superstar Scrubben’.

De groeiende markt voor AI-trainingen

Deze praktijk is symptomatisch voor een bredere trend: AI-laboratoria zijn steeds afhankelijker van hoogwaardige trainingsgegevens. Bedrijven als OpenAI, Anthropic en Google huren legers van aannemers in via bedrijven als Surge, Mercor en Handshake AI om deze gegevens te genereren. De vraag naar bekwame aannemers heeft de prijzen opgedreven, waardoor een lucratieve subindustrie is ontstaan ​​met een waarde in de miljarden. OpenAI heeft zelfs onderzoek gedaan naar het rechtstreeks verkrijgen van gegevens van failliete bedrijven, hoewel bezorgdheid over de volledige anonimisering van gegevens een dergelijk onderzoek heeft stopgezet.

Het AI-lab stelt veel vertrouwen in zijn contractanten om te beslissen wat wel en niet vertrouwelijk is… Als ze iets doorlaten, nemen de AI-labs dan echt de tijd om te bepalen wat wel en niet een bedrijfsgeheim is? Het lijkt mij dat het AI-lab zichzelf in groot gevaar brengt.

De afhankelijkheid van externe contractanten benadrukt de groeiende druk op AI-bedrijven om hun modellen te verbeteren met behulp van gegevens uit de echte wereld. Hoewel OpenAI de nadruk legt op gegevensbeveiliging, blijven de inherente risico’s van het omgaan met vertrouwelijke werkmonsters een grote zorg voor zowel aannemers als hun voormalige werkgevers.