OpenAI ma kłopoty. Miliony artykułów The New York Times i innych wydawców pobranych do szkolenia AI

07.11.2024, 10:16

The New York Times był pierwszym poważnym amerykańskim tytułem, który sprzeciwił się praktykom OpenAI (screen: YouTube/CBC News)

W ciągu trzech tygodni przeszukiwania przez wydawców zbioru danych potrzebnych do szkolenia modeli sztucznej inteligencji OpenAI znaleziono miliony artykułów opublikowanych wcześniej na stronach takich, jak The New York Times i The New York Daily News, a także siedmiu mniejszych serwisów należących do Alden Global Capital.

Wydawcy przeszukują obecnie dane, aby znaleźć przypadki wykorzystania ich tekstów chronionych prawem autorskim.

Teraz proszą o orzeczenie sądowe wymagające od OpenAI "identyfikacji i przyznania”, która z ich treści chronionych prawem autorskim została wykorzystana do szkolenia każdego z jej dużych modeli językowych między GPT-1 a GPT-4o.

Według twórcy ChatGPT, wydawcy poprosili o informacje na temat prawie 20 mln treści wymienionych w sprawie. Wydawcy stwierdzają, że firma nie chce w pełni współpracować.

W najnowszym piśmie wydawcy argumentowali, że określenie, które z ich tekstów chronionych prawem autorskim zostało pobrane i wykorzystane do szkolenia modeli GPT, ma "fundamentalne znaczenie w tych sprawach i określa zakres” ich roszczeń.

Po długotrwałych negocjacjach wydawcy zostali dopuszczeni do sprawdzania danych szkoleniowych OpenAI, ale w ściśle określonych warunkach. Stwierdzili, że borykali się z "poważnymi i powtarzającymi się problemami technicznymi”, które uniemożliwiały im "skuteczne i wydajne” przeprowadzanie wyszukiwania oraz "ustalanie pełnego zakresu naruszeń OpenAI”.

(MAC, 07.11.2024)