AIの使用がバレたくないなら、これらの言葉は絶対に避けてください

AI が生成したテキストの検出は、研究者や開発者にとって長年の課題でした。Google の Gemini Advanced や OpenAI の GPT-4o などの大規模言語モデル (LLM) の急速な進歩により、人間のようなテキストを生成する能力はますます洗練されてきました。

しかし、テュービンゲン大学とノースウェスタン大学の研究者による新たな研究は、AIによって作成されたコンテンツを識別する上で画期的な成果をもたらしました。

研究者たちは、科学論文における特定の語彙の急増に注目し、驚くべき精度で LLM の使用を検出する方法を開発した。この手法は、超過死亡数を測定したパンデミック研究にヒントを得たもので、単語の使用法の変化が AI 生成テキストの存在を示す可能性があることを明らかにしている。

AI生成コンテンツでよく使われる単語 — **研究者らは、科学論文における特定の語彙の急増に基づいてAI生成テキストを識別する方法を開発した。** (画像提供)

AI コンテンツを明らかにする単語は何ですか?

これらの変化を測定するために、研究チームは各単語の出現頻度を毎年精査しました。2023年以前の傾向に基づいて予測された単語出現頻度と、2023年および2024年の実際の使用頻度を比較したところ、特定の用語の劇的な増加が判明しました。たとえば、「delves」という単語は、2024年の抄録では予想よりも25倍多く出現しました。同様に、「showcasing」と「underscores」の使用頻度は9倍に増加しました。

AI 生成テキストで最もよく使用される単語と、それに対応する使用増加率は次のとおりです。

デルブス – 25倍増加
展示 – 9倍増加
アンダースコア – 9倍増加
潜在的 – 4.1パーセントポイント増加
調査結果 – 2.7パーセントポイント増加
重要な – 2.6パーセントポイント増加
横切って – 大幅な増加（正確な増加率は指定されていません）
さらに – 大幅な増加（正確な増加率は指定されていません）
包括的な – 大幅な増加（正確な増加率は指定されていません）
強化 – 大幅な増加（正確な増加率は指定されていません）
出展しました – 大幅な増加（正確な増加率は指定されていません）
洞察 – 大幅な増加（正確な増加率は指定されていません）
特に – 大幅な増加（正確な増加率は指定されていません）
特に – 大幅な増加（正確な増加率は指定されていません）
内で – 大幅な増加（正確な増加率は指定されていません）

これらの単語は、予想よりもはるかに頻繁に現れ、AI の関与を示す明らかな兆候となっている。言語は自然に進化するが、このような突然の変化は珍しく、世界的な大事件と関連していることが多い。

この場合、LLM の広範な使用により、科学文献の語彙に顕著な変化が生じました。

パンデミック分析からのインスピレーション

研究者のアプローチは、COVID-19パンデミック中に使用された手法から大きく影響を受けている。観測された死亡者数を過去のデータと比較して超過死亡数を算出したのと同様に、この研究では現在の単語の使用状況を過去の傾向と比較して異常値を特定する。研究者らは、2010年から2024年までにPubMedで公開された1,400万件以上の科学論文抄録を分析し、2022年後半からLLMの採用が広まるのと同時に、特定の単語が大幅に増加していることを特定した。

研究者らは、「マーカーワード」と呼ばれる特定の単語の増加は、LLMの使用を明確に示す指標であると指摘した。この現象は、名詞を多用する言語が増加したCOVID-19パンデミックなどの出来事に関連した過去の語彙の変化とは異なる。

対照的に、LLM 取得後には、動詞、形容詞、副詞が急増しました。この変化は、AI が生成したテキストが文章の質感やスタイルを微妙に変化させる様子を浮き彫りにしています。

これらのマーカーワードを特定することで、研究者は次のように推定している。 2024年の科学論文抄録の少なくとも10％は、法学修士課程の学位によって作成されたか、または大幅に支援されたものである。すべての AI 支援テキストにこれらの特定のマーカーが含まれているわけではないため、この推定値は控えめである可能性があります。それでも、これらの単語の存在は、学術論文における AI の影響を検出するための信頼性の高い指標となります。

LLM 利用の地理的傾向

この調査では、LLM の採用における地域的な違いも明らかになりました。中国、韓国、台湾などの国では、科学論文でマーカーワードの使用頻度が高く、LLM が英語を母国語としない人々にとって特に価値があることを示しています。これらのツールは、論文の洗練と強化に役立ち、論文をより洗練させて出版に適したものにします。

逆に、英語を母国語とする人は、こうしたマーカーを認識して排除するスキルが優れているため、AI の使用を隠蔽できる可能性があります。この違いは、LLM が世界中で広く使用されているものの、英語が主要言語ではない地域ではその影響がより顕著であることを示唆しています。

注目の画像クレジット: フリーピク

Source: AIの使用がバレたくないなら、これらの言葉は絶対に避けてください

暗号通貨業界に信頼を植え付けるために取り組んでいる 5 つのプロジェクト