Wikipediaは、自動化されたAIボットによって引き起こされるサーバーのスクレイピングと負担を軽減するために、機械学習用に最適化されたデータセットをリリースすることにより、AI開発者がデータをよりアクセスしやすくしています。

Wikimedia Foundationは、Googleが所有するデータサイエンスコミュニティプラットフォームであるKaggleと提携して、構造化されたウィキペディアコンテンツのベータデータセットを英語とフランス語で公開しています。このデータセットは「機械学習ワークフローを念頭に置いて設計されている」ため、開発者はモデリング、微調整、ベンチマーク、アライメント、分析など、さまざまなAIアプリケーションの機械可読な記事データに簡単にアクセスできます。

データセットには、研究要約、短い説明、画像リンク、情報ボックスデータ、記事セクションなど、さまざまなコンテンツが含まれています。ただし、オーディオファイルのような参照と非記述要素は除外されます。 4月15日現在、データは「よく構築されたJSON表現」で提示されています。これは、生の記事テキストをこすりつけたり解析したりするよりも、開発者にとってより魅力的なはずです。この動きは、現在自動化されたAIボットアクティビティによって大幅に消費されているウィキペディアのサーバーのひずみを軽減することが期待されています。

Wikimedia Foundationには、Googleおよびインターネットアーカイブとのコンテンツ共有契約が既にあります。ただし、Kaggleとのこのパートナーシップは、小規模企業や独立したデータサイエンティストがデータにアクセスしやすくすることを目的としています。データセットをホストすることにより、Kaggleは、データにアクセスしやすく、利用可能で、機械学習コミュニティに役立つようにする上で重要な役割を果たしています。

「機械学習コミュニティがツールとテストに参加する場所として、Kaggleはウィキメディア財団のデータのホストになることに非常に興奮しています」と、Kaggle Partnerships LeadのBrenda Flynn氏は述べています。 「Kaggleは、このデータをアクセスしやすく、利用可能で、有用にする役割を果たすことに興奮しています。」

データセットのリリースは2025年4月17日に発表され、AI開発者と関わり、AI駆動型トラフィックのプラットフォームへの影響を管理するというウィキペディアの取り組みにおける重要なステップを告げました。

Source: Wikipediaは、スクレイピングを抑制するAIの準備データを提供しています

  プライバシーの問題とズームコストズーム8500万ドル