AI開発者はデータが不足しています。彼らはどこでもっと手に入れることができますか？

Openaiは、2022年11月にChatGptのデビューで技術革命を引き起こし、世界中の何百万人もの素晴らしいユーザーが、夢を見ることができるあらゆるトピックで人間のような会話に従事する象徴的なチャットボットの能力に驚かされました。

すべてのハイテク企業は、塩の価値があるすべてのハイテク企業が、独自の生成AIモデルで行為に参加しようとしているため、その日はより多くの人気を得たAIの流行を開始しました。 GoogleとMetaからのGeminiとLlamaの大規模な言語モデルでの回答がすぐに見られ、MicrosoftはすでにOpenaiと密接に関連しており、独自のモデルを構築することで前進しました。

それに加えて、AIスタートアップのホストは、人類から協力、AI21 Labs、そして今ではDeepseekに至るまで、業界が狂った自由になり、狂気のレベルで数十人の競合するプレイヤーが急いで現金を獲得していることは明らかです。次世代AIツールの需要の。

AIモデルは、膨大な量のデータを使用してトレーニングおよび構築されており、改善するにはますます増加する量が必要です。このデータを取得するために、ほとんどのAI開発者は、最も明白なソース、つまりパブリックインターネットに移動し、そこで大量の情報を自由に削ります。

rawうと擦り傷

ほとんどの人が気付いていないことの1つは、「インターネットをダウンロードする」だけの場所に行くことができる簡単な場所がないということです。したがって、AI開発者が行うことは、「Web Crawlers」として知られるツールに依存しています。これは、World Wide Webを洗浄し、データベース内で表示されるすべての情報をインデックス化する際にリンクからリンクに移動します。次に、「Webスクレーパー」を使用します。これは、そのデータベースを通過して、導くすべての情報をダウンロードします。

GoogleやMicrosoftなどの膨大なリソースを持つ企業は、これらのWebクローラーとスクレーパー自体を作成するためのお金と専門知識を持っています。残りについては、Webをクロールしてダウンロードする非営利組織であるCommon Crawlなどの既存のリソースに目を向ける傾向があり、数か月ごとに更新される大規模なオープンソースデータベースに情報を編集します。別のリソースは、Laionとして知られる大規模な人工知能オープンネットワークです。これは、Webで見つかった画像へのリンクと、それらと一緒に投稿されたキャプションです。

さらに、AIのアレン研究所など、AIの開発を促進することに関心がある他の非営利団体があります。さまざまなWebページ、書籍、コードベース、学術論文、オンラインで見つかった百科事典から3兆以上のトークンを含むDolmaデータベースなど、大規模な言語モデル開発者向けのオープンデータセットをコンパイルするのに役立ちます。

コンテンツクリエイターが押し戻されます

これらのデータベースはすべてWebクローラーとスクレーパーによって作成されますが、この情報を使用してトレーニングされたモデルの正確性と信頼性について疑問を提起するため、この一般的な慣行については多くの論争があります。結局のところ、多くのジャンク情報や噂、伝聞がオンラインで投稿されています。もちろん、AIが彼らの生計に対する脅威として認識されていることを考えると、多くのコンテンツクリエーターが補償されるべきであると主張して、著作権に関する紛争にもつながっています。

一部の企業は、データにアクセスするためにこれを回避しようとしました。たとえば、Openaiは、Axel SpringerやInternet Forum Redditなどのニュース組織と同意し、コンテンツにアクセスするために支払いました。 Metaなどの他の人々は、FacebookやInstagramの何百万もの公開投稿など、モデルを訓練するために独自のデータを使用しています。 Xの所有者であるElon Muskは、彼の会社が同じことをしてLLMSのグロックファミリーを訓練していると言います。 Amazonは、デジタルアシスタントAlexaと会話する顧客からの音声データを使用すると述べています。

AI開発者は、より多くを得ることができるデータを使い果たしています — （画像クレジット）

ただし、多くのソーシャルメディアユーザーは、投稿やコメントがAIモデルのトレーニングに使用されているという考えに非常に不快なものであるため、これらのプラクティスもそれほど人気がありません。

非常に多くのプッシュバックがありましたが、AI開発者は、アルゴリズムの生命線であることを考えると、常に何度もデータを渇望することができません。そのため、革新的な新しいAIアプリケーションを作成し続けるために必要な情報をどこで取得できるかについて質問があります。

データの合成は解決策かもしれません

この質問に対する可能な解決策の1つは、「合成データ」かもしれません。これは、最初に膨大な量の実際のデータを消費する機械によって人為的に生成される情報です。

そもそも多くの実際のデータがある場合は、必要なものに基づいて多くの合成情報を作成することができますが、この人工情報の品質については質問があります。結局のところ、それはすべて人間によって作成された実際のデータから供給されており、そのソースデータが不正確または偏見がある場合、結果の合成情報はこれらの問題を拡大する可能性があります。

その結果、AIモデルのトレーニングに使用されるより合成情報が多いほど、悪化や不正確さが悪化し、より多くの「幻覚」につながります。

合成データがトレーニングデータセットの高騰する需要に対する実行可能なソリューションになる場合、品質基準のベースラインを満たす必要があります。これは、ある種の人間の入力が残っている場合にのみ可能です。

競争でデータ品質を向上させます

これは、分数AIが違いを生む可能性がある場所です。合成データを生成するタスクを競争に変換したのは、ユニークなブロックチェーンベースのプロトコルの作成者であり、人間の開発者が新しいデータセットを生成するために競合するAIエージェントを作成します。合成データ作成に優れた成功したAIエージェントを作成することにより、開発者は参加に対して大きな報酬を獲得できます。

Fraction AIは、特定の要件に従って、最も正確で信頼できるデータセットを作成するために競合するAIエージェント間の定期的な競争をホストしています。彼らはこれらの競争に参加するために暗号通貨で料金を支払いますが、最高のパフォーマーは報われ、開発者により良いAIエージェントを作成するように促されます。

ビルダーは、プロンプトを入力するだけで、コーディングスキルなしでこれらのエージェントを作成できます。このアプローチにより、誰でもアクセスできるようになります。

さらに、分数AIは、ネットワークを保護するためにETH暗号通貨トークンを賭ける「ステイカーズ」にも依存しています。彼らも、競争手数料、プロトコル料金のシェア、および合成データセットのライセンスによる収益の組み合わせを通じて、これを行うための報酬を獲得します。

分数AIについての独創的なことは、それがはるかに高品質の合成情報を生成することを保証するデータラベル付けにまったく新しいアプローチを導入することです。伝統的に、データラベル付けは人間のみによって行われてきましたが、これは正確ですが遅すぎるか、AIモデルによってははるかに高速ですが、精度が低くなります。

分数AIにより、人間はエージェントにデータのラベル付け方法を伝えることができるため、これらのエージェントははるかに高いスケールでより正確に行うことができます。これは、両方の方法の利点を組み合わせたアプローチであり、3人のエコシステム参加者すべてに価値を提供します。

AIエージェントのビルダーまたは作成者は、より効果的なエージェントを作成したことで報われ、より良い品質データを保証します。最高のエージェントのみが報われるため、エージェントが失う人はエージェントを改善することを余儀なくされて、稼ぎ始めることができます。ステーカーは、より多くのトレーニングデータの作成をサポートしながら、投資で定期的な利回りを獲得する機会を得ます。最後に、AI開発者は、より有能なAIモデルをトレーニングするために使用できる新しい高品質の合成データの連続的なストリームから恩恵を受けます。

ループ内の人間の必要性

これは、実際の可能性があることを示す斬新なアプローチです。すでに、分数AIは、小さなマルチモーダルLLMを調整して、その大規模なモデルのわずかなコストでOpenaiのGPT-4と同等のパフォーマンスを可能にする能力を実証しています。

このプロトコルは、合成データ作成プロセス中に人間がループに留まることを保証することの重要性を示しています。人間は、ChatGptの初期の成功の背後にある主な理由の1つです。開発中に、Openaiは数百人の労働者を雇い、ChatGPTの初期バージョンを実験し、フィードバックを提供しました。これはパフォーマンスを改善するために使用されました。これは最終的に、チャットボットの応答の品質に変革的な影響を及ぼし、今日存在するAIの狂ったスクランブルを引き起こしました。

AIモデルがより普及し、より洗練されるにつれて、世界は信頼できるデータを急速に使い果たしています。ループ内の人間で作成された合成データは、この問題に対する最も実行可能な解決策として浮上しており、AI産業にとっての重要性は増え続けています。

特集画像クレジット：Maxim Berg/Unsplash

ポストAI開発者はデータが不足しています。彼らはどこでもっと手に入れることができますか？ TechBrieflyに最初に登場しました。

Source: AI開発者はデータが不足しています。彼らはどこでもっと手に入れることができますか？

ホグワーツレガシーアートブックのリーク: 完全なマップ、場所、キャラクター