OpenAI sollicite activement des missions de travail réelles auprès de sous-traitants pour comparer ses modèles d’IA de nouvelle génération à la performance humaine. L’entreprise demande aux sous-traitants de télécharger les livrables de travaux passés ou actuels (documents, présentations, feuilles de calcul et même référentiels de code) sous forme de données de formation. Cette initiative semble être un élément essentiel de la poussée d’OpenAI vers l’intelligence générale artificielle (AGI), où les systèmes d’IA dépassent les capacités humaines dans des tâches économiquement intéressantes.
La performance humaine comme référence
OpenAI vise à établir une base de référence humaine quantifiable pour diverses tâches. En comparant les résultats de l’IA avec des échantillons de travail humain réel, l’entreprise peut évaluer les progrès de ses modèles. Il est demandé aux entrepreneurs de fournir des descriptions détaillées des tâches et des livrables correspondants : le produit fini des travaux. Cette approche donne la priorité à l’authenticité, OpenAI demandant explicitement un « travail réel sur le terrain » plutôt que des simulations.
Problèmes de confidentialité
Malgré les instructions de suppression des données sensibles, cette pratique présente des risques juridiques importants. L’avocat en propriété intellectuelle Evan Brown prévient que les laboratoires d’IA pourraient faire l’objet de plaintes pour détournement de secrets commerciaux en cas de fuite d’informations confidentielles. Les entrepreneurs partageant des échantillons de travail, même après anonymisation, peuvent violer les accords de non-divulgation avec leurs employeurs précédents. OpenAI lui-même reconnaît la nécessité de nettoyer les données confidentielles et fait même référence à un outil interne, « Superstar Scrubbing », à cet effet.
Le marché de la formation en IA en expansion
Cette pratique est symptomatique d’une tendance plus large : les laboratoires d’IA dépendent de plus en plus de données de formation de haute qualité. Des entreprises comme OpenAI, Anthropic et Google embauchent des armées d’entrepreneurs par l’intermédiaire d’entreprises comme Surge, Mercor et Handshake AI pour générer ces données. La demande d’entrepreneurs qualifiés a fait grimper les prix, créant une sous-industrie lucrative évaluée en milliards. OpenAI a même envisagé d’acquérir des données directement auprès d’entreprises en faillite, bien que les inquiétudes concernant l’anonymisation complète des données aient stoppé une telle enquête.
Le laboratoire d’IA fait beaucoup confiance à ses sous-traitants pour décider de ce qui est ou non confidentiel… S’ils laissent passer quelque chose, les laboratoires d’IA prennent-ils vraiment le temps de déterminer ce qui est ou n’est pas un secret commercial ? Il me semble que le laboratoire d’IA se met en grand danger.
Le recours à des sous-traitants tiers met en évidence la pression croissante exercée sur les sociétés d’IA pour qu’elles améliorent leurs modèles grâce à des données du monde réel. Bien qu’OpenAI mette l’accent sur la sécurité des données, les risques inhérents à la manipulation d’échantillons de travail confidentiels restent une préoccupation majeure tant pour les entrepreneurs que pour leurs anciens employeurs.
