OpenAI, ймовірно, використовувала викрадені книги для навчання GPT-3. Набори даних зникли разом з їх авторами

10 мая, 09:01
4294
0

Гільдія авторів судиться проти OpenAI через незаконне використання захищених авторським правом книг для навчання ШІ. Щоправда, цих наборів даних вже немає, а дослідники, які їх створили, звільнилися.

Нещодавно розкриті судові документи у справі Гільдії авторів проти OpenAI показали, що стартап видалив два величезні набори даних під назвами books1 та books2, які використовувалися для навчання моделі штучного інтелекту GPT-3. Через ці набори компанія і зіткнулася із судовим позовом, пише Business Insider.

Юристи Гільдії авторів у судових справах стверджують, що ці набори даних, ймовірно, містили понад 100 000 опублікованих книг. Протягом кількох місяців Гільдія намагалася отримати інформацію від OpenAI про ці набори даних. Спочатку компанія чинила опір, посилаючись на стурбованість про конфіденційність, а потім оголосила, що позбулася їх. OpenAI описувала набори даних books1 та books2 як «корпусу книг в Інтернеті» та говорила, що вони становлять 16% навчальних даних, використаних для створення GPT-3. Разом books1 та books2 містили 67 мільярдів токенів даних, або приблизно еквівалент 50 мільярдів слів. Оскільки ці набори даних вже видалені, компанія пропонує Гільдії авторів доступ до інших даних, які використовувалися для GPT-3.

«Моделі, які сьогодні використовують ChatGPT та наш API, не були розроблені з використанням цих наборів даних. Ці набори даних, створені колишніми співробітниками, які більше не працюють з OpenAI, востаннє використовувалися у 2021 році та були видалені через невикористання у 2022 році», - стверджує компанія.

OpenAI також відмовлялася розголошувати особи двох співробітників, які створили ці набори даних. Зрештою компанія повідомила їхні імена Гільдії авторів, але відмовилася називати їх публічно.

Високоякісні учбові дані є важливою частиною потужних моделей штучного інтелекту. Для побудови цих моделей OpenAI та інші компанії використовували дані з Інтернету, зокрема чимало книг та публікацій ЗМІ. Багато компаній, які створили цю інформацію, хочуть отримувати гроші за надання даних для ШІ продуктів. Зокрема, The New York Times судилася проти OpenAI через використання публікацій без дозволу.

Зарегистрируйтесь на Портале

и получите красивый адрес своей странички вида: senior.ua/sergey.ivanov

Проверить доступность:

senior.ua/|

Теги: книги openai суд штучний інтелект авторське право навчання ші ші-моделі gpt-3 набори даних

Новости IT компаний
Обсуждения, Форум

OpenAI, ймовірно, використовувала викрадені книги для навчання GPT-3. Набори даних зникли разом з їх авторами

Зарегистрируйтесь на Портале

Похожие материалы

0 комментариев

Добавить комментарий

Последние статьи

Огляд Rabbit R1

Asus вмер для мене

Огляд зарядної док-станції Anker Prime 160W

20 років геймингу та мій HP OMEN 17

Огляд повербанка AOHi The Future Starship

Великі зарядні станції. Що, якщо не Ecoflow?

Огляд чохла для iPad Pro PITAKA MagEZ Folio 2

Ebay refurbished – власний досвід покупки смартфона з США

EPAM, SoftServe, GlobalLogic та інші: хто увійшов до рейтингу 50 найбільших IT-компаній від DOU

ASUS BR – ноутбуки для школярів і студентів