AI が生成したテキストの検出は、研究者や開発者にとって長年の課題でした。Google の Gemini Advanced や OpenAI の GPT-4o などの大規模言語モデル (LLM) の急速な進歩により、人間のようなテキストを生成する能力はますます洗練されてきました。

しかし、テュービンゲン大学とノースウェスタン大学の研究者による新たな研究は、AIによって作成されたコンテンツを識別する上で画期的な成果をもたらしました。

研究者たちは、科学論文における特定の語彙の急増に注目し、驚くべき精度で LLM の使用を検出する方法を開発した。この手法は、超過死亡数を測定したパンデミック研究にヒントを得たもので、単語の使用法の変化が AI 生成テキストの存在を示す可能性があることを明らかにしている。

AI生成コンテンツでよく使われる単語
研究者らは、科学論文における特定の語彙の急増に基づいてAI生成テキストを識別する方法を開発した。 (画像提供)

AI コンテンツを明らかにする単語は何ですか?

これらの変化を測定するために、研究チームは各単語の出現頻度を毎年精査しました。2023年以前の傾向に基づいて予測された単語出現頻度と、2023年および2024年の実際の使用頻度を比較したところ、特定の用語の劇的な増加が判明しました。たとえば、「delves」という単語は、2024年の抄録では予想よりも25倍多く出現しました。同様に、「showcasing」と「underscores」の使用頻度は9倍に増加しました。

AI 生成テキストで最もよく使用される単語と、それに対応する使用増加率は次のとおりです。

  • デルブス – 25倍増加
  • 展示 – 9倍増加
  • アンダースコア – 9倍増加
  • 潜在的 – 4.1パーセントポイント増加
  • 調査結果 – 2.7パーセントポイント増加
  • 重要な – 2.6パーセントポイント増加
  • 横切って – 大幅な増加(正確な増加率は指定されていません)
  • さらに – 大幅な増加(正確な増加率は指定されていません)
  • 包括的な – 大幅な増加(正確な増加率は指定されていません)
  • 強化 – 大幅な増加(正確な増加率は指定されていません)
  • 出展しました – 大幅な増加(正確な増加率は指定されていません)
  • 洞察 – 大幅な増加(正確な増加率は指定されていません)
  • 特に – 大幅な増加(正確な増加率は指定されていません)
  • 特に – 大幅な増加(正確な増加率は指定されていません)
  • 内で – 大幅な増加(正確な増加率は指定されていません)

これらの単語は、予想よりもはるかに頻繁に現れ、AI の関与を示す明らかな兆候となっている。言語は自然に進化するが、このような突然の変化は珍しく、世界的な大事件と関連していることが多い。

この場合、LLM の広範な使用により、科学文献の語彙に顕著な変化が生じました。

パンデミック分析からのインスピレーション

研究者のアプローチは、COVID-19パンデミック中に使用された手法から大きく影響を受けている。観測された死亡者数を過去のデータと比較して超過死亡数を算出したのと同様に、この研究では現在の単語の使用状況を過去の傾向と比較して異常値を特定する。研究者らは、2010年から2024年までにPubMedで公開された1,400万件以上の科学論文抄録を分析し、2022年後半からLLMの採用が広まるのと同時に、特定の単語が大幅に増加していることを特定した。

研究者らは、「マーカーワード」と呼ばれる特定の単語の増加は、LLMの使用を明確に示す指標であると指摘した。この現象は、名詞を多用する言語が増加したCOVID-19パンデミックなどの出来事に関連した過去の語​​彙の変化とは異なる。

AI生成コンテンツでよく使われる単語
「マーカーワード」と呼ばれる特定の単語の増加は、LLMの使用状況を明確に示す指標である。 (画像提供)

対照的に、LLM 取得後には、動詞、形容詞、副詞が急増しました。この変化は、AI が生成したテキストが文章の質感やスタイルを微妙に変化させる様子を浮き彫りにしています。

これらのマーカーワードを特定することで、研究者は次のように推定している。 2024年の科学論文抄録の少なくとも10%は、法学修士課程の学位によって作成されたか、または大幅に支援されたものである。すべての AI 支援テキストにこれらの特定のマーカーが含まれているわけではないため、この推定値は控えめである可能性があります。それでも、これらの単語の存在は、学術論文における AI の影響を検出するための信頼性の高い指標となります。

LLM 利用の地理的傾向

この調査では、LLM の採用における地域的な違いも明らかになりました。中国、韓国、台湾などの国では、科学論文でマーカー ワードの使用頻度が高く、LLM が英語を母国語としない人々にとって特に価値があることを示しています。これらのツールは、論文の洗練と強化に役立ち、論文をより洗練させて出版に適したものにします。

逆に、英語を母国語とする人は、こうしたマーカーを認識して排除するスキルが優れているため、AI の使用を隠蔽できる可能性があります。この違いは、LLM が世界中で広く使用されているものの、英語が主要言語ではない地域ではその影響がより顕著であることを示唆しています。


注目の画像クレジット: フリーピク

Source: AIの使用がバレたくないなら、これらの言葉は絶対に避けてください

  Windows 11の制限を回避して、ほぼすべてのコンピューターにインストールする方法は?