Моделі штучного інтелекту Apple, Salesforce, Anthropic та інших великих технологічних гравців тренувалися на десятках тисяч відео з YouTube без згоди творців та, можливо, порушуючи умови YouTube.
Компанії навчили свої моделі частково за допомогою The Pile, колекції некомерційної організації EleutherAI. Ця колекція була зібрана як корисний набір даних для окремих осіб та компаній, які не можуть конкурувати з техногігантами, але зрештою набула популярності саме серед них.
Як пише Wired, The Pile містить книги, статті з Вікіпедії та багато іншого. Зокрема, субтитри до відео на YouTube, зібрані з 173 536 відео YouTube з більше 48 000 каналів. Це включає відео популярних користувачів як технокоментатор Маркес Браунлі.
«Apple отримала дані для свого ШІ від кількох компаній. Один із них зібрав тонни даних та розшифровок з відео на YouTube, включаючи моє. Технічно Apple уникає вини тут, тому що вони не крадуть. Але ця проблема ще довго розвиватиметься», — прокоментував Браунлі на X.
Для багатьох ютуберів повідомлення про те, що їхній контент використовували для навчання ШІ, було несподіваним. Деякі були обурені діями EleutherAI та компаній, які використовували цей набір даних.
«Ніхто не підійшов до мене і не сказав: „Ми хотіли б цим скористатися“… Це мій засіб для існування, і я вкладаю час, ресурси, гроші та час співробітників у створення цього контенту. Роботи справді вистачає», — заявив Девід Пакман із The David Pakman Show.
Раніше писали, що YouTube категорично проти використання відео на платформі для навчання штучного інтелекту. У компанії заявляли, що використання відео для навчання OpenAI Sora порушило б умови платформи.
0 комментариев
Добавить комментарий