Openaiは、ユーザー向けの幅広いコンピューターベースのタスクを自動化するように設計されたChatGPT内の新しい汎用AIエージェントを発売しました。 ChatGPTエージェントという名前のこの高度なツールは、オペレーターやディープリサーチなどの以前のOpenAIエージェントツールの機能を統合し、Webサイトをナビゲートし、情報をレポートに合成し、カレンダーの管理、プレゼンテーションの生成、コードを実行できるようにします。

ChatGptエージェントは、木曜日にOpenaiのPro、Plus、およびチームプランの加入者に展開されています。ユーザーは、ChatGPTのドロップダウンメニューから「エージェントモード」を選択することで、この機能をアクティブにすることができます。この起動は、ChatGptを質問回答システムから実用的なタスクオフロードエージェントに変換するOpenaiの最も野心的な取り組みを意味します。

Openaiは、しばしば複雑なタスクに苦労していた以前のAIエージェントとは異なり、ChatGptエージェントは大幅に能力が高いと主張しています。 ChatGptコネクタにアクセスして、GmailやGitHubなどのアプリケーションとの統合を可能にし、プロンプトの関連情報を取得できるようにします。エージェントは端末へのアクセスも所有しており、APIを利用してさまざまなアプリケーションと対話できます。

Openaiは、食事の材料の計画や購入や競合他社の分析でスライドデッキを作成するなど、ChATGPTエージェントの実用的なアプリケーションを強調しています。これらのタスクは、エージェントにWebサイトを解析し、アクションプランを策定し、ツールを使用することを要求し、以前のエージェント機能と比較して複雑さの飛躍を表します。

基礎となるModel Powering ChatGptエージェントは、いくつかのベンチマークで最先端のパフォーマンスを示しています。 「人類の最後の試験」(パス@1)では、100人以上の被験者にわたる数千の質問を含む厳密なテストで、モデルは41.6%のスコアを達成しました。これは、OpenaiのO3およびO4-MINIモデルのスコアのほぼ2倍です。挑戦的な数学ベンチマークである「Frontiermath」の場合、ChatGPTエージェントは、コード実行用の端末などのツールを提供すると27.4%を獲得し、O4-MINIからの以前の最先端のスコアを大幅に上回りました。

Openaiは、ChatGptエージェントの開発における安全性の考慮事項を強調し、高度な機能によってもたらされるリスクの高まりを認めています。 ChATGPTエージェントの安全レポートで、OpenAIはこのモデルを生物学的および化学兵器ドメインの「高い能力」として分類しました。 Openaiの準備フレームワークによって定義されているこの分類は、直接的な証拠がまだ利用できないにもかかわらず、「既存の経路を深刻な害に拡大する」モデルの可能性を示しています。その結果、Openaiは予防措置として新しい保護手段を実装しています。

主要な安全対策には、リアルタイム監視システムが含まれます。分類器は、ChatGPTエージェントに入力されたすべてのプロンプトを分析して、生物学関連の要求を検出します。識別された場合、エージェントの応答は2番目のモニターに渡され、コンテンツが生物学的脅威に貢献できるかどうかを判断します。

さらに、Openaiは、このエージェントのChatGPTのメモリ機能を一時的に無効にして、迅速なインジェクション攻撃による敏感なデータ除去など、潜在的な誤用を防ぎます。メモリ機能は通常、ChatGptが過去の会話を参照することを許可しますが、Openaiはこれをこのエージェントのリスクと見なしましたが、将来の包含を再考する可能性があります。

Openaiによって概説されている印象的な能力にもかかわらず、ChatGPTエージェントの真の現実世界のパフォーマンスはまだ見られません。歴史的に、エージェントテクノロジーは、複雑な現実世界のシナリオと相互作用する際に脆弱性を実証してきました。それにもかかわらず、Openaiは、その有能なモデルがAIエージェントの長年にわたるビジョンを提供できるという自信を表明しています。

Source: ChatGptは今あなたの実際の仕事をします

  Facebookで一時的なプロフィール写真を設定するには?