OpenAI Evals をご覧ください。 OpenAI は、GPT-4 のリリースとともに、AI モデルの有効性をテストするためのオープンソース ソフトウェア フレームワークもリリースしました。
OpenAI チームは、彼らが Evals と呼んでいる新しいツール セットを発表しました。これにより、誰でも会社のモデルの問題を報告し、変更を導くことができます。
私たちは、AI モデルのパフォーマンスを自動評価するためのフレームワークである OpenAI Evals をオープンソース化しており、誰でもモデルを改善できるようにしています。
— サム・アルトマン (@sama) 2023 年 3 月 14 日
OpenAI Evals とは何ですか?
OpenAI はブログ投稿で、この方法論をモデルを検証するための「クラウドソーシング アプローチ」と説明しています。
「私たちは Evals を使用してモデルの開発をガイドし (欠点の特定と回帰の防止の両方)、ユーザーはそれを適用して、モデルのバージョン全体でパフォーマンスを追跡し、製品統合を進化させることができます」と OpenAI は書いています。 「私たちは、Evals がベンチマークを共有し、クラウドソーシングするための手段になり、最大限に幅広い一連の失敗モードと困難なタスクを表すことを望んでいます。」
-OpenAI
OpenAI の Evals プロジェクトの目標は、パフォーマンスを注意深く分析することで、GPT-4 などのモデルの有効性を評価するために使用できるベンチマークを構築して実行することです。 Evals を使用すると、プログラマーはデータセットを使用して質問を生成し、OpenAI モデルの応答の精度を評価し、さまざまなデータセットとモデルの有効性を評価できます。
Evals は、いくつかの有名な AI ベンチマークと下位互換性があるだけでなく、独自の評価ロジックを使用する新しいクラスを作成することもできます。 ベンチマークとして機能するために、OpenAI は、GPT-4 が苦労する 10 の問題の例を使用して論理パズルの評価を設計しました。
それはすべてボランティア活動であり、非常に残念です。 それにもかかわらず、OpenAI は、Evals の使用を促進するために、「高品質」のベンチマークを提供する個人に GPT-4 アクセスを提供する予定です。
「Evals は、モデルを使用してモデルを構築するプロセスの不可欠な部分になると信じており、直接の貢献、質問、およびフィードバックを歓迎します。」
-OpenAI
デフォルトでモデルのトレーニングに消費者データの利用を停止すると発表した OpenAI は、Evals を使用して AI モデルを強化するためにクラウドソースに目を向けた企業の仲間入りをしています。
あなたはGPT-4に興味がありますか? これらをチェックしてください:
- ChatGPT プロンプトの比較
- GPT-4 対 ChatGPT
Source: OpenAI Evals で GPT-4 を改善できます








