OpenAI は、特に一般的な生物学のワークフローでトレーニングされた GPT-Rosalind という大規模な言語モデルの開発を発表しました。生物学者のロザリンド・フランクリンにちなんで名付けられたこのモデルは、生物学的データ分析への特殊なアプローチを表しており、大手テクノロジー企業が通常採用しているより一般的なモデルとは区別されます。
OpenAI のライフ サイエンス プロダクト リードである Yunyun Wang 氏は、GPT-Rosalind は生物学研究における重大な障害に対処していると述べました。最初の課題は、数十年にわたるゲノム配列決定とタンパク質生化学によって生成された膨大なデータセットから生じます。 2 番目の課題には、生物学の多くの下位分野の専門化が含まれており、それぞれが独自の技術と特定の専門用語によって特徴付けられます。
たとえば、遺伝学者は、脳細胞で活性な特定の遺伝子に関連する広範な神経生物学的文献をナビゲートするのが困難に遭遇する可能性があります。 Wang 氏は、OpenAI が GPT-Rosalind に、最も一般的な 50 の生物学的ワークフローと生物学的情報の主要な公開データベースへのアクセスについてトレーニングを行ったと指摘しました。
このモデルは、潜在的な生物学的経路を示唆し、薬物標的に優先順位を付ける機能を備えています。 「私たちは、既知の経路や制御機構を通じて遺伝子型と表現型を結び付け、タンパク質の構造的または機能的特性を推定し、この機構の理解を実際に活用しています」とワン氏は語った。








