OpenAI, ймовірно, використовувала викрадені книги для навчання GPT-3. Набори даних зникли разом з їх авторами

  • 10 мая, 09:01
  • 3868
  • 0

Гільдія авторів судиться проти OpenAI через незаконне використання захищених авторським правом книг для навчання ШІ. Щоправда, цих наборів даних вже немає, а дослідники, які їх створили, звільнилися.

Нещодавно розкриті судові документи у справі Гільдії авторів проти OpenAI показали, що стартап видалив два величезні набори даних під назвами books1 та books2, які використовувалися для навчання моделі штучного інтелекту GPT-3. Через ці набори компанія і зіткнулася із судовим позовом, пише Business Insider.

Юристи Гільдії авторів у судових справах стверджують, що ці набори даних, ймовірно, містили понад 100 000 опублікованих книг. Протягом кількох місяців Гільдія намагалася отримати інформацію від OpenAI про ці набори даних. Спочатку компанія чинила опір, посилаючись на стурбованість про конфіденційність, а потім оголосила, що позбулася їх. OpenAI описувала набори даних books1 та books2 як «корпусу книг в Інтернеті» та говорила, що вони становлять 16% навчальних даних, використаних для створення GPT-3. Разом books1 та books2 містили 67 мільярдів токенів даних, або приблизно еквівалент 50 мільярдів слів. Оскільки ці набори даних вже видалені, компанія пропонує Гільдії авторів доступ до інших даних, які використовувалися для GPT-3.

«Моделі, які сьогодні використовують ChatGPT та наш API, не були розроблені з використанням цих наборів даних. Ці набори даних, створені колишніми співробітниками, які більше не працюють з OpenAI, востаннє використовувалися у 2021 році та були видалені через невикористання у 2022 році», - стверджує компанія.

OpenAI також відмовлялася розголошувати особи двох співробітників, які створили ці набори даних. Зрештою компанія повідомила їхні імена Гільдії авторів, але відмовилася називати їх публічно.

Високоякісні учбові дані є важливою частиною потужних моделей штучного інтелекту. Для побудови цих моделей OpenAI та інші компанії використовували дані з Інтернету, зокрема чимало книг та публікацій ЗМІ. Багато компаній, які створили цю інформацію, хочуть отримувати гроші за надання даних для ШІ продуктів. Зокрема, The New York Times судилася проти OpenAI через використання публікацій без дозволу.


0 комментариев
Сортировка:
Добавить комментарий