Internet Infrastructure Provider CloudFlareは、AIのスタートアップがWebサイトブロックを積極的に回避し、そのアイデンティティを不明瞭にして、AIスクレイピングを明示的にオプトアウトしたサイトからコンテンツをスクレイプすることを非難しました。 CloudFlareは、確立された規則を無視し、そのrawいやスクレイピング活動を偽装したとされる困惑がどのように困惑したと言われていることを詳述した月曜日の研究を発表しました。
CloudFlareの研究者によると、困惑は、ボットの「ユーザーエージェント」を変更して、ウェブサイトの訪問者のデバイスとバージョンの種類を識別し、インターネット上の大規模なネットワークを識別する数字である自律システムネットワーク(ASN)を変更することにより、アイデンティティを不明瞭にしようとしました。この疑いのある活動は、「1日あたり数万のドメインと数百万の要求」で観察され、CloudFlareは「機械学習とネットワーク信号の組み合わせを使用してこのクローラーを指紋することができる」と述べています。
この問題は、顧客がRobots.txtファイルにルールが実装されているにもかかわらず、困惑がcraいてサイトをcraいて削り続けたと報告した後、CloudFlareの注意を引き起こしました。 CloudFlareはテストを実施し、困惑が実際にこれらのブロックを回避していることを確認しました。 「Perplexityは、宣言されたユーザーエージェントだけでなく、宣言されたクローラーがブロックされたときにMacOSにGoogle Chromeになりすましている一般的なブラウザも使用していることを観察しました」とCloudFlare氏は述べています。
これに応じて、CloudFlareは、検証済みのリストからPerplexityのボットを作成し、新しいブロッキング技術を実装しました。困惑のスポークスマンであるジェシー・ドワイヤーは、クラウドフレアのブログ投稿を「セールスピッチ」として却下し、「コンテンツがアクセスされなかったことを示している」とTechCruntに、CloudFlareの名前が付けられたボットが「私たちではない」と主張していると主張することをTechCruntに伝えます。
この事件は、不正なスクレイピングやコンテンツの使用に関する非難に直面したのは初めてではありません。昨年、Wiredを含むニュースアウトレットは、困惑がコンテンツを盗用していると主張しました。数週間後、2024年の混乱会議でのインタビューで、Perplexity CEOのAravind Srinivasは、直接尋ねられたときに彼の会社の盗作の定義を提供するのに苦労したと伝えられています。
CloudFlareは、特に出版社にとって、インターネットのビジネスモデルへの影響に対する懸念を挙げて、AIクローラーに対してますます一般的な姿勢をとっています。先月、CloudFlareは、サイトにアクセスするためにAIスクレーパーを請求できるWebサイトの所有者と出版社を可能にするマーケットプレイスを立ち上げました。 CloudFlareの最高経営責任者であるMatthew Princeは、以前にAIがインターネットの根底にある経済構造を混乱させていると警告しています。昨年、同社は、BOTSがAIトレーニングの目的でWebサイトを削減するのを防ぐために設計された無料ツールも導入しました。







