OpenAI запитує реальні робочі зразки для навчання агентів ШІ

2

OpenAI активно запрошує підрядників на реальні робочі завдання, щоб оцінити ефективність своїх моделей штучного інтелекту нового покоління порівняно з людськими. Компанія просить підрядників завантажувати минулі або поточні результати роботи — документи, презентації, електронні таблиці, навіть сховища кодів — як навчальні дані. Ініціатива, здається, є ключовою частиною поштовху OpenAI до створення загального штучного інтелекту (AGI), в якому системи ШІ перевершують людські можливості в економічно значущих завданнях.

Ефективність людини як орієнтир

OpenAI має на меті встановити вимірюваний людський тест для різних завдань. Порівнюючи результат штучного інтелекту з реальними прикладами людської роботи, компанія може оцінити прогрес своїх моделей. Підрядників просять надати детальний опис завдань та відповідні результати — готовий продукт роботи. Цей підхід ставить автентичність на перше місце: OpenAI явно вимагає «реальної робочої діяльності», а не моделювання.

Проблеми конфіденційності

Незважаючи на інструкції щодо видалення конфіденційних даних, ця практика створює значні юридичні ризики. Юрист із питань інтелектуальної власності Еван Браун попереджає, що лабораторії штучного інтелекту можуть зіткнутися з претензіями у незаконному привласненні комерційної таємниці у разі витоку конфіденційної інформації. Підрядники, які надають зразки робіт навіть після анонімізації, можуть порушувати угоди про нерозголошення з попередніми роботодавцями. Сам OpenAI визнає необхідність видалення конфіденційних даних і навіть згадує внутрішній інструмент «Superstar Scrubbing» для цієї мети.

Розширення ринку навчання AI

Ця практика є симптомом ширшої тенденції: лабораторії штучного інтелекту все більше залежать від високоякісних навчальних даних. Для створення цих даних такі компанії, як OpenAI, Anthropic і Google, наймають армію підрядників через такі фірми, як Surge, Mercor і Handshake AI. Попит на кваліфікованих підрядників підняв ціни, створивши прибуткову підгалузь вартістю мільярди доларів. OpenAI навіть досліджувала можливість безпосереднього придбання даних у компаній-банкрутів, хоча побоювання щодо повної анонімності даних зупинили одне з таких розслідувань.

Лабораторії штучного інтелекту дуже довіряють своїм підрядникам щодо визначення того, що є конфіденційним, а що ні… Якщо щось проскакує, чи справді лабораторії штучного інтелекту знаходять час, щоб визначити, що є комерційною таємницею, а що ні? Схоже, лабораторія штучного інтелекту наражає себе на великий ризик.

Залежність від сторонніх підрядників підкреслює зростаючий тиск на компанії штучного інтелекту щодо вдосконалення своїх моделей, використовуючи дані реального світу. Незважаючи на те, що OpenAI наголошує на безпеці даних, невід’ємні ризики обробки конфіденційних зразків робіт залишаються головною проблемою як для підрядників, так і для їхніх колишніх роботодавців.