OpenAI Evals で GPT-4 を改善できます

OpenAI Evals をご覧ください。 OpenAI は、GPT-4 のリリースとともに、AI モデルの有効性をテストするためのオープンソースソフトウェアフレームワークもリリースしました。

OpenAI チームは、彼らが Evals と呼んでいる新しいツールセットを発表しました。これにより、誰でも会社のモデルの問題を報告し、変更を導くことができます。

私たちは、AI モデルのパフォーマンスを自動評価するためのフレームワークである OpenAI Evals をオープンソース化しており、誰でもモデルを改善できるようにしています。
You Might Also Like
X ブラジル禁止: 法的な衝突、社会の変化、VPN の問題
02/09/2024
7 月 4 日の NYT Digits ゲームの答え
04/07/2023
サムスンギャラクシーS21をハードリセットする方法は？
19/02/2021
— サム・アルトマン (@sama) 2023 年 3 月 14 日

OpenAI Evals とは何ですか?

OpenAI はブログ投稿で、この方法論をモデルを検証するための「クラウドソーシングアプローチ」と説明しています。

「私たちは Evals を使用してモデルの開発をガイドし (欠点の特定と回帰の防止の両方)、ユーザーはそれを適用して、モデルのバージョン全体でパフォーマンスを追跡し、製品統合を進化させることができます」と OpenAI は書いています。「私たちは、Evals がベンチマークを共有し、クラウドソーシングするための手段になり、最大限に幅広い一連の失敗モードと困難なタスクを表すことを望んでいます。」
-OpenAI

OpenAI の Evals プロジェクトの目標は、パフォーマンスを注意深く分析することで、GPT-4 などのモデルの有効性を評価するために使用できるベンチマークを構築して実行することです。 Evals を使用すると、プログラマーはデータセットを使用して質問を生成し、OpenAI モデルの応答の精度を評価し、さまざまなデータセットとモデルの有効性を評価できます。

Evals は、いくつかの有名な AI ベンチマークと下位互換性があるだけでなく、独自の評価ロジックを使用する新しいクラスを作成することもできます。ベンチマークとして機能するために、OpenAI は、GPT-4 が苦労する 10 の問題の例を使用して論理パズルの評価を設計しました。