Reddit は今週、コンテンツが無断で取得されるのを防ぐために大きな変更を加えました。robots.txt ファイルと呼ばれるものが更新されました。これは、コンピューター プログラム (検索エンジンで使用されるプログラムなど) に Web サイトを閲覧できるかどうかを指示するものです。このファイルは、何かを検索したときに検索エンジンが Web サイトを表示できるようにするために重要です。
しかし現在、人工知能の台頭により、一部の企業はRedditのようなウェブサイトからコンテンツを取得し、元の制作者に問い合わせたり、クレジットを表示したりすることなく、自社のAIシステムをトレーニングしています。これは、コンテンツを作成した人々やそれをホストするウェブサイトを尊重していないため、大きな問題となっています。
Redditは何をやっているのでしょうか?
Reddit の robots.txt ファイルの更新は、コンテンツの使用方法を制御することを目的としています。また、Reddit のルールに従わない、またはコンテンツの使用許可を得ていない未知のコンピュータ プログラムやボットがサイトにアクセスすることを制限およびブロックする予定です。
Reddit によると、これらの変更はほとんどの人や、研究者やインターネットの履歴を保存するグループ (インターネット アーカイブなど) などの善良な組織には影響しないという。代わりに、AI 企業が Reddit のコンテンツを許可なく使用することを阻止しようとしている。ただし、これらの AI プログラムは依然として Reddit のルールを無視する可能性があります。
最近の調査と対応
この発表は、AIを利用した検索会社「Perplexity」がrobots.txtファイルで禁止されていたにもかかわらず、ウェブサイトからコンテンツを取得していたことを発見したWiredの報道を受けてのものだった。PerplexityのCEOは、これらの規則は法的要件ではないと主張し、ウェブサイトがコンテンツを保護できる方法についての議論を巻き起こした。
Redditのデータは今のところGoogleの所有物である
Reddit の新しい規則は、すでに同社と契約を結んでいる企業には影響しません。たとえば、Reddit は Google と 6,000 万ドルの契約を結んでおり、Google は Reddit のデータを AI プロジェクトに利用することができます。これは、Reddit が自社のデータを誰が利用できるか慎重に検討し、信頼できるパートナーであることを確認したいと考えていることを示しています。
「Redditのコンテンツを使用するすべての人は、Redditユーザーを保護するために当社の規則に従わなければなりません」とRedditはブログ投稿で述べた。「私たちは、Redditコンテンツへのアクセスを誰と協力し、誰を信頼するかを慎重に選んでいます。」
将来に向けて
Reddit によるこの変更は、特に企業が商業目的でデータをどのように使用するかを管理するための取り組みの一環です。これは、AI とビッグデータの時代に、ウェブサイトがコンテンツを保護しようとする傾向が高まっていることを示しています。
Reddit の行動は明確なメッセージを送っています。AI には大きな可能性があるものの、データの出所を尊重し、許可を得ることが本当に重要です。インターネットが変化するにつれ、Reddit の行動は他の Web サイトがコンテンツやユーザーの権利を保護する方法に影響を与える可能性があります。
すべての画像はEray Eliaçık/Bingによって生成されました
Source: Redditはデータに料金を請求する