Согласно расследованию некоммерческой новостной редакции Proof News, компании Apple, Nvidia, Anthropic и Salesforce использовали субтитры к видео на YouTube для обучения своих ИИ-моделей без разрешения авторов контента, сообщает Хабр.
Смотреть бесплатно без регистрации: аналитики Proof News выяснили, что субтитры к 172 500 видеороликам с более чем 48 000 каналов были включены в датасет The Pile, который применялся для обучения ИИ-моделей. Среди таких каналов: MKBHD (19 млн подписчиков), MrBeast (289 млн), Jacksepticeye (31 млн), PewDiePie (111 млн), ток-шоу Стивена Колберта, Джона Оливера и Джимми Киммела, а также каналы Массачусетского технологического института и Гарвардского университета.
Каталог субтитров: The Pile, созданный некоммерческой организацией EleutherAI, включает материалы не только с YouTube, но также публикации Европарламента и англоязычной Википедии. Аналитики утверждают, что доступ к датасету в интернете открытый, что только осложняет проблему нарушений прав авторов в сфере интеллектуальной собственности.