OpenAI は、著作権侵害の申し立てをめぐる進行中の法的手続き中に、ニューヨーク・タイムズとの著作権訴訟に関連する重要なデータを誤って削除してしまいました。この事件には原告に提供された専用仮想マシンからのデータが関係しており、OpenAIは最近の提出書類で裁判所にそのことを認めた。その結果、タイムズ紙の弁護士らは、この事件に関連する1週間分の仕事を失ったと述べた。
OpenAIはニューヨーク・タイムズとの訴訟でデータ損失の挫折に直面している
タイムズの法務チームからの書簡によると、このデータ損失には「丸一週間の専門家と弁護士の仕事」が関与しており、「回復不能な損失」となったという。原告らは、OpenAIのモデルが未承認のコンテンツでトレーニングされていたという主張を調査していた。このプロセスの一環として、OpenAI のトレーニング データセットに関する 150 時間以上の集中的な調査により、特に著作権侵害の事例を探してデータを蓄積しました。 TechCrunchのレポートによると、削除は11月14日に発生し、「専用仮想マシンの1つに保存されていたプログラムと検索結果データがOpenAIエンジニアによって消去された」という。
訴訟の中心は、OpenAIが、Bing AIチャットボットにOpenAIの技術を使用しているパートナーであるMicrosoftとともに、ペイウォールで保護されたコンテンツを許可なく利用することでニューヨーク・タイムズの著作権を侵害したと主張している。同紙は、OpenAIのモデルが記事の「ほぼそのままの」レプリカを生成し、損害賠償の主張を形成したと主張している。 OpenAIはこれらの主張に一貫して反論し、自社のトレーニングは公的に入手可能なデータに基づいており、著作権法に基づくフェアユースに該当すると主張した。
OpenAIの広報担当者は、この事件は「不具合」だったとコメントした。同時に、削除されたデータの大部分は正常に復元されましたが、「フォルダー構造とファイル名」を含む重要な要素は失われたままであり、その結果使用できなくなりました。その結果、タイムズの弁護士たちは現在、証拠収集を一からやり直すという課題に直面している。状況にもかかわらず、彼らは「信じる理由がない」と報告した。 [the erasure] 意図的でした」と OpenAI がそのデータセットを検索するのに最適な立場にあることを強調しました。しかし、彼らはまた、同社がトレーニングデータの詳細を開示することに消極的であることも指摘した。

さらに問題を複雑にしているのは、OpenAI に対して同様の著作権侵害の申し立てが起きていることです。 Raw Story と AlterNet による最近の同社に対する訴訟は、原告が申し立てに関連した損害の十分な証拠を提出できなかったため、却下された。対照的に、ニューヨーク・タイムズは、OpenAIに対する訴訟を進めるために訴訟費用として100万ドル以上を投資したと伝えられている。この財政的コミットメントは、小規模パブリッシャーが大手テクノロジー企業と競争する際の明確な課題を示しています。
一方、OpenAIは最近、大手メディア企業数社とライセンス契約を締結し、自社のコンテンツを自社のAIモデルのトレーニングに使用することを許可し、それによって報酬とクレジットを提供している。報道によると、OpenAIは出版大手ドットダッシュ・メレディスにライセンス権として年間少なくとも1600万ドルを支払っており、これは進行中の訴訟ではなく正式な提携を求める同社の戦略を反映している。
画像クレジット: フルカン・デミルカヤ/表意文字
OpenAI が重要なデータを誤って削除したため、NewYork Times の法的問題が深刻化という投稿は、最初に TechBriefly に掲載されました。








