ChatGPT は、基礎となるモデルが進歩したにもかかわらず、基本的な計数タスクで苦労し続けています。チャットボットは、実際には 3 文字であるにもかかわらず、「strawberry」という単語には 2 つの「r」文字が含まれていると誤って報告します。この問題は、2025 年 12 月にリリースされた最新バージョンの GPT-5.2 でも依然として発生しています。最新の AI システムは、マーケティング画像の生成、エージェントブラウザを介したレポートの編集、チャートトップの曲の作曲などの複雑な操作を簡単に処理します。しかし、7歳児なら簡単に完了できるような単純な作業では、彼らはたどたどしくなります。 「strawberry」の「r」を数えることは、このギャップの例です。この単語は、strawberry として分解され、文字「r」が 3 つ出現します。最近のテストでは、問題が未解決のままであることが確認されました。 GPT-5.2 のリリース後、ChatGPT へのクエリでは「2」という直接の応答が得られました。これは、数十億ドルの投資、RAMの価格を押し上げているハードウェア需要の増加、AIトレーニングに関連した世界的な大量の水使用にもかかわらず発生しています。根本的な原因は、ChatGPT のような大規模な言語モデルのトークン化された入出力設計にあります。個々の文字を処理する代わりに、システムはテキストを単語全体、音節、単語の一部などのトークンに分割します。 「strawberry」の場合、OpenAI Tokenizer は「st」、「raw」、「berry」の 3 つのトークンを明らかにします。このうち、「r」という文字が含まれるのは「raw」と「berry」の 2 つだけです。したがって、モデルは個々の文字ではなく「r」を含むトークンをカウントします。このトークン化は類似した単語に影響を与えます。 ChatGPT は、「raspberry」にも 2 つの「r」があり、3 つ目の「r」を見落としていると報告しています。システムは「berry」を 1 つのトークンとして扱い、その 2 つの「r」を 1 つの単位に圧縮します。 GPT-5.x は、OpenAI o1-mini および GPT-4o で導入された新しい「o200k_harmony」トークン化メソッドを採用していますが、「strawberry」エラーは残ります。 OpenAI は、2022 年後半の ChatGPT のデビュー以来、多くのトークンベースの問題に対処してきました。初期のバージョンでは、異常な応答や処理エラーを引き起こす特定のフレーズに関する問題が発生しました。パッチを適用すると、トレーニング データが調整され、システムが改善され、「Mississippi」(ミシシッピ)を綴ったり、「ロリポップ」を正しい順序で逆に文字にしたりするようなケースが解決されました。ただし、AI モデルは一般に、数学や問題解決には優れていますが、小さな値を正確にカウントする場合はパフォーマンスが低くなります。古典的な問題のある単語のテストでは、既知のイチゴの場合を超える失敗はありませんでした。 ChatGPT は「Mississippi」と「lollipop」を正しく処理しました。注目すべき残骸の 1 つは、文字列「solidgoldmagikarp」に関係しています。 GPT-3 では、このフレーズはユーザーの侮辱、理解できない出力、トークン化の癖による処理エラーなどのメルトダウンを引き起こしました。 GPT-5.2 はメルトダウンを回避しますが、幻覚を引き起こします。「solidgoldmagikarp」は開発者によって GitHub リポジトリに隠された秘密のポケモン ジョークであると主張しています。アクティベーションにより、アバター、リポジトリアイコン、機能がポケモンをテーマにした要素に変換されると考えられています。この主張は完全に誤りであり、弦の歴史的問題に起因しています。他の AI モデルは「イチゴ」の質問に正しく答えます。 Perplexity、Claude、Grok、Gemini、Qwen、Copilot はそれぞれ 3 つの「r」を識別します。 OpenAI モデルを活用している場合でも、個々の文字をより適切に捕捉する独自のトークン化システムを使用しているため、成功しています。 ChatGPT は予測エンジンとして動作し、トレーニング パターンに依存して、真の文字レベルのインテリジェンスではなく後続のテキストを予測します。トークン化では文字通りのカウントよりも効率が優先され、イチゴ問題のような永続的な問題が説明されます。 2022 年後半以降、OpenAI はトークン処理を繰り返し改良してきました。最初の起動では、特定の文字列に対する脆弱性が明らかになり、内省的なループや激怒のような反応が引き起こされました。 「ミシシッピ」文字の列挙や「ロリポップ」反転など、これらを対象とした体系的な修正が行われ、現在では正確に機能しています。正確なカウントにおける広範な制限は、モデル間で存続します。算術の強みにもかかわらず、小さな値の集計は変圧器アーキテクチャの課題となります。 「solidgoldmagikarp」テストは、明らかな失敗から捏造された物語へと発展する、長引くトークンの敏感性を強調しています。比較により、トークン化の役割が強調されます。 Perplexity は独自のスキームを採用しており、「イチゴ」の正確な「r」検出を可能にします。 Anthropic の Claude、xAI の Grok、Google の Gemini、Alibaba の Qwen、Microsoft の Copilot はすべて、カウント 3 を返します。トークン境界のバリエーションにより、OpenAI のセットアップには存在しない文字レベルの粒度が可能になります。 OpenAI Tokenizer ツールは、「st-raw-berry」という分割を示します。 「St」には「r」がありませんが、「raw」には 1 つ、「berry」には 2 つありますが、1 つのトークンとしてカウントされます。 「Raspberry」もこれに続き、トークンは最後の「r」を圧縮します。 GPT-5.2 の「o200k_harmony」の採用は、o1-mini および GPT-4o 時代からの効率向上を目的としていますが、ストロベリートークン化には欠陥が残っています。 OpenAI のパッチ適用履歴は、対象を絞った介入が暴露された症例に対して機能することを示唆しています。初期の ChatGPT では、フレーズ上でカウントを超えたトークン誘発スパイラルが見られました。 「Solidgoldmagikarp」の例: GPT-3 のトークン処理が過負荷になり、混乱が生じます。 GPT-5.2 は、これを存在しない GitHub イースターエッグとして再構築し、発明を通じてエラーを保持します。テストにより修正の範囲が確認されます。 「Mississippi」には、「i」が 4 つ、「s」が 4 つ、「p」が 2 つ、「m」が 1 つ、計 11 文字が正確にリストされています。 「Lollipop」はそのまま「pillopol」に反転します。これらにもかかわらず、コア計数の不足は依然として残っています。モデルは、制約されたコンテキスト内で正確に列挙するのではなく、近似します。代替プロバイダーはカスタム トークナイザーを介して回避します。 Perplexity の検索拡張アプローチ、Claude の体質トレーニング、Grok のリアルタイム データ、Gemini のマルチモーダル解析、Qwen の多言語最適化、Copilot のエンタープライズ チューニング – すべてが正しいイチゴ応答を可能にします。この差異は、トークン化が極めて重要であることを強調しています。 OpenAI のバイトペア エンコードでは、一般的なサブワードが優先され、「イチゴ」などの複合語のまれな文字の分布が犠牲になります。歴史的背景: 2022 年後半の発売では、トークンの異常に関する報告が殺到しました。 OpenAI は迅速なアップデートで対応し、2025 年までにほとんどのあからさまなエクスプロイトを排除しました。現在作成中の GPT-5.2 は、累積的な改良を具体化していますが、象徴的な欠陥としてイチゴを残しています。サイドバー参照メモ関連コンテンツ: 「ChatGPT でこれができることをご存知ですか?」アミール・ボルーリ著、2025年9月27日付。
Source: ChatGPT GPT-5.2 がイチゴの「r」を数え間違える




