OpenAIはChatGPTによって生成されたコードをデバッグするためにCriticGPTを導入しました

OpenAI は、高度な AI システムによって生成された出力を評価するための重要なステップとなる、新しい GPT-4 ベースのモデル CriticGPT を開発しました。このモデルは、ChatGPT コードのエラーを検出するように設計されています。

研究によると、CriticGPT の助けを借りて ChatGPT コードを調べた人は、助けを借りていない人よりも 60% 優れたパフォーマンスを発揮することがわかっています。OpenAI は、同様のモデルを「人間のフィードバックからの強化学習」(RLHF) のラベル付けプロセスに統合することで、トレーナーに人工知能のサポートを提供することを目指しています。では、この CriticGPT とは何でしょうか。詳しく見てみましょう。

CriticGPT とは何ですか? また、何をするのですか?

CriticGPT は、RLHF プロセスで重要な役割を果たします。ChatGPT の推論能力と行動能力が向上するにつれて、そのエラーはより微妙になり、AI トレーナーが見つけにくくなります。また、CriticGPT は、ChatGPT 応答の不正確さを強調する批評を書くようにトレーニングされたモデルとして、トレーナーが AI の助けを借りずにモデルが作成した応答の問題を見つけるのに役立ちます。人々に CriticGPT を使用させることで、AI はスキルを強化でき、より徹底した批評と幻覚エラーの少ないモデルにつながります。詳細については、このリンクをご覧ください。

私たちが注目したCriticGPTの機能の一部を表にまとめました。:

特徴	説明
エラーの識別	微妙な間違いも含め、ChatGPT のコード出力内のエラーを識別します。
批評の生成	ChatGPT の回答の不正確さを強調する批評を生成します。
人間の拡張	人間のトレーナーのスキルを強化し、人間だけの場合よりも包括的な批評を実現します。
幻覚の減少	ChatGPT よりも幻覚 (誤検知) や細かい指摘 (役に立たない批判) が少なくなります。
強化されたRLHFラベル	明示的な AI 支援を提供することで、RLHF ラベリングの効率と精度を向上させます。
テスト時の検索	追加のテスト時検索を使用して、より長く包括的な批評を生成します。
精度と再現率のトレードオフ構成	幻覚率と検出されたバグの数の間のトレードオフを設定できます。

CriticGPT のトレーニングは RLHF 方式で行われます。しかし、ChatGPT とは異なり、CriticGPT はエラーのある入力を大量に受け取り、それを批判する必要があります。AI トレーナーは、ChatGPT によって記述されたコードに手動でバグを追加し、追加したバグをキャッチしたかのようにサンプルフィードバックを書き込みます。変更されたコードの複数の批評を比較することで、同じ人が批評で追加したバグがキャッチされたことを簡単に認識できます。実験では、CriticGPT が挿入されたバグと、以前のトレーナーによってキャッチされた「自然発生的な」ChatGPT バグをキャッチするかどうかを調べます。自然発生的なエラーの場合、インストラクターは 63% の割合で、CriticGPT 批評を ChatGPT 批評よりも好みます。

OpenAIはChatGPTによって生成されたコードをデバッグするためにCriticGPTを導入しました — CriticGPT は RLHF メソッドを使用してトレーニングされ、ChatGPT のコード内のエラーを識別します (画像クレジット)

CriticGPTにもいくつかの制限があります。このモデルは短いChatGPT応答でトレーニングされています。将来、より長く複雑なタスクを監督するには、トレーナーがこれらのタスクを理解できるようにするための方法を開発する必要があります。また、モデルはまだ幻覚を起こし、トレーナーがこれらの幻覚を見た後にラベル付けエラーを起こすことがあります。場合によっては、現実世界のエラーが回答の多くの部分に広がることがあります。OpenAIは、ますます複雑化するAIシステムを調整するためのより優れたツールの必要性を強調しています。CriticGPTの研究は、RLHFをGPT-4に適用して、人々がGPT-4用のより良いRLHFデータを生成できるようにする可能性を示しています。OpenAIはこの研究をさらに拡大し、実践する予定です。

注目の画像クレジット: OpenAI

Source: OpenAIはChatGPTによって生成されたコードをデバッグするためにCriticGPTを導入しました

ChatGPT の使用量が初めて減少: その理由を学ぶ