MiniMax が MMX-CLI を起動し、AI エージェントにネイティブのマルチモーダルアクセスを提供

MiniMax は、AI プラットフォーム用の Node.js ベースのコマンドラインインターフェイスである MMX-CLI をリリースし、開発者と AI エージェントが生成機能に直接アクセスできるようにしました。

MMX-CLI は、追加の統合レイヤーなしでメディアを生成するのに苦労している大規模言語モデル (LLM) ベースのエージェントが直面する課題に対処します。新しいインターフェイスにより、ユーザーはさまざまなメディア生成関数をシェルコマンドとして直接呼び出すことができるため、モデルコンテキストプロトコルが不要になります。

このインターフェイスは、MiniMax の機能を 7 つのコマンドグループ (mmx テキスト、mmx イメージ、mmx ビデオ、mmx スピーチ、mmx ミュージック、mmx ビジョン、mmx 検索) に統合します。各コマンドは、開発者と AI アプリケーションに合わせた特定の機能を提供します。

mmx テキストコマンドはマルチターンチャットをサポートし、特定の MiniMax モデルバリアントをターゲットとします。デフォルトでは MiniMax-M2.7 が使用され、高度なテキスト生成タスクが可能になります。 mmx image コマンドを使用すると、テキストプロンプトから画像を生成でき、複数の出力にわたるアスペクト比と主題の一貫性に関するオプションが提供されます。この機能は、視覚的な連続性が必要なワークフローを支援します。 mmx ビデオコマンドは、同期ポーリングまたは非同期タスク追跡のオプションを備えたビデオ生成に MiniMax-Hailuo-2.3 を利用します。ユーザーはコマンドのフラグを使用してビデオ生成の開始フレームを指定できます。

MMX-CLI の mmx speech コマンドには、30 を超えるテキスト読み上げ音声が含まれています。ユーザーは、字幕のタイミングをサポートしながら、速度、音量、ピッチなどのパラメーターを調整できます。入力は 10,000 文字に制限されています。

mmx music コマンドを使用すると、ユーザーはテキスト入力から音楽を生成し、ジャンルや楽器編成などのさまざまな作曲パラメーターを定義できます。透かしを埋め込むオプションも含まれています。 mmx ビジョンコマンドは、ビジョン言語モデルを使用して画像を解釈するため、ユーザーはプロンプトを通じて画像の内容を問い合わせることができます。

mmx search コマンドは Web 検索を容易にし、結果をテキストまたは JSON 形式で返します。コマンド構造と基礎となる技術アーキテクチャの両方が、さまざまな環境で使いやすいように最適化されています。 MMX-CLI は主に TypeScript で開発されており、Node.js 18 以降と互換性があります。導入は簡単で、構造化されたエラー処理とデュアルリージョン API ルーティングのサポートが特徴です。

MiniMax は、MMX-CLI は多様なメディア生成機能に対応する統合ツールを提供することで、AI 開発の統合障壁を大幅に軽減すると述べました。これと AI エージェントの簡単なセットアップを組み合わせることで、インテリジェントなアプリケーションを構築するプロセスが合理化されます。

注目の画像のクレジット

MiniMax M2.7 はテストで最高のコーディングベンチマークと一致