Anthropic は Claude Mythos に関する技術文書をリリースしていないため、Kye Gomez は GitHub 上でオープンソース プロジェクトである OpenMythos を立ち上げることになりました。 OpenMythos は、PyTorch の第一原理を使用して Claude Mythos アーキテクチャを再構築するように設計されています。
このプロジェクトは、Claude Mythos が従来のトランスフォーマーとは根本的に異なる Recurrent-Depth Transformers (RDT) として知られるアーキテクチャの一種であることを提案しています。標準のトランスフォーマーは、独立した重みを持つ一連の固有のレイヤーを通じて入力を処理しますが、RDT は単一の順方向パス中に固定の重みセットを繰り返し適用します。
この方法では、推論の深さを推論時に実行される反復回数に依存させることができます。 OpenMythos は、プレリュード、リカレント ブロック、コーダの 3 部構成を特徴としています。プレリュードとコーダはそれぞれ 1 回動作する標準トランス層で構成され、リカレント ブロックは最大 16 回ループできます。
各ループ ステップで、隠れ状態は方程式 ht+1 = A·ht + B·e + Transformer(ht, e) に従って更新されます。ここで、 e は、連続性を維持するために反復ごとに再注入される Prelude からのエンコードされた入力を表します。行列 A と B は、前の隠れ状態とエンコードされた入力が次の状態にどの程度影響するかを示します。
Recurrent Block には、トークンごとにエキスパートのサブセットを選択的にアクティブ化し、計算の多様性を促進する Mixture-of-Experts (MoE) レイヤーが組み込まれています。各反復では異なる選択のエキスパートが使用され、基本重みを共有しながら個別の計算が可能になります。
OpenMythos は、KV メモリの使用量を大幅に削減する Multi-Latent Attendance も採用しています。このアーキテクチャは、中間トークンを介して推論を処理する標準の思考連鎖プロンプトとは対照的に、中間トークンの発行なしで推論を可能にします。
OpenMythos は、残留爆発や考えすぎなどの安定性の問題など、ループ モデルに関連する一般的なトレーニングの課題に対処します。 Parcae アーキテクチャで示されているように、行列 A のスペクトル半径を 1 未満に保つことを強制することで、安定性が維持されます。
トークンの複雑さに基づいてループの停止基準を決定するために、動的適応計算時間 (ACT) 停止が実装されています。 Depth-Wise LoRA アダプターも反復ごとに独自の動作を作成するために利用され、パラメーターの増加を最小限に抑えます。
研究によると、7 億 7,000 万のパラメータを備えた RDT は、13 億のパラメータを備えた標準トランスと同等のパフォーマンスを提供できることが示唆されています。これは、推論の深さが推論の計算に応じて拡張され、パラメーター数とモデルの機能の関係に関する既存のパラダイムに挑戦していることを示しています。
OpenMythos は、ループ変圧器のダイナミクスと推論の深さを探索するための実用的な実装を提供し、AI 開発の将来の進歩を導く可能性があります。このプロジェクトは、構成可能な PyTorch 実装、LTI 安定反復インジェクション、深さ方向の LoRA アダプター、および再現可能な研究ベースラインを提供します。
Gomez 氏は、「Mythos が実際に RDT であるかどうかに関係なく、OpenMythos は、この未開発のアーキテクチャ クラスとその AI への影響を調査するための具体的なリソースを研究コミュニティに提供します。」と述べました。








