政府の試験では人間の感覚がAIを上回る

オーストラリア政府が実施した実験では、複雑な文書を要約する上で人工知能（AI）と人間の知能を比較し、人間があらゆる面でより効果的であることが証明されました。

オーストラリアの企業規制機関である証券投資委員会（ASIC）が実施したこの調査は、通常は綿密な分析と集中力を必要とする作業における人工知能の効率性を評価することを目的としていた。結果によると、AIは作業を減らすどころか、作業を増やしている可能性がある。

政府の試験では人間の感覚がAIを上回る — 人間の参加者はAIをはるかに上回り、評価基準で81%という素晴らしいスコアを獲得した。一方、AIは47%だった（画像提供）

AIは人間の査読者に及ばない

今年初め、アマゾンはオーストラリア政府のこの実験を支援し、さまざまなメーカーのさまざまな AI モデルをテストしました。最終的に、このタスクには Meta の Llama2-70B を選択しました。この AI は、議会の調査からの 5 つの提出物を要約するタスクを与えられ、ASIC への言及、推奨事項、規制への言及、およびその他の重要な詳細に焦点を当てました。同時に、さまざまな役職の 10 人の人間 (ASIC スタッフ) に同じタスクが与えられました。AI の関与を知らなかったこのレビュー担当者グループは、要約の一貫性、長さ、関連性、規制への言及の正確さを評価しました。

人間の参加者はAIをはるかに上回り、印象的なスコアを獲得しました。 81% 評価基準では、 47% AI にとって、人間は ASIC 文書の引用を特定することに優れていましたが、これは AI にとって難しいタスクとして知られています。さらに、人間による要約は強調、ニュアンス、文脈を維持していると高く評価されましたが、AI はこれらの重要な要素を見逃すことが頻繁にありました。また、AI の要約には無関係な情報が含まれていたり、重要な詳細が抜けていたりすることがあり、信頼性が低いとレビュー担当者は指摘しました。

要約におけるAIのパフォーマンスの意味

実験の結果は、現在の AI 技術は、時間の節約という点では一般に考えられているほど効率的ではないかもしれないことを示している。一方で、AI は重要な詳細を見落としたり、間違いを犯したりする傾向があるため、AI が作成した資料を検証して編集しなければならないという、人間にとって余分な作業が発生する可能性がある。査読者は、AI が文書の要点を人間の査読者ほどうまく伝えないことが多いため、要約を AI に頼るのは有益ではないかもしれないと懸念していた。

報告書は、使用されているAIモデルが時代遅れであるなどの一定の制約を認識しているものの、最終的には、情報の解釈と評価における人間のスキルは依然としてAIより優れていると結論付けている。この裁判では、文脈と微妙な点の徹底的な把握が求められる作業において、AIを人間の労働に取って代わるものではなく、手助けするツールとして捉えることの重要性が強調された。

政府の透明性とAI

この報告書の調査結果は、報告書の公表につながった調査を率いた緑の党上院議員デイビッド・シューブリッジ氏にとって意外なものではなかった。同氏は、AIは提出書類の評価を支援できるが、常に人間が監督する必要があると指摘した。この実験は、現時点ではAIは人間の能力を奪うのではなく、支援するときに最も有益であるという考えを強調している。

この裁判は、政府の手続きでAIが使用される際の透明性に関する、より一般的な懸念も提起している。シューブリッジ上院議員は、上院委員会の公聴会で情報が明らかになるのを待つのではなく、政府機関が率先してAIの使用状況を開示することの重要性を強調した。

注目の画像クレジット: Furkan Demirkaya / Midjourney

Source: 政府の試験では人間の感覚がAIを上回る

レムナント 2 の上位ボスが明らかに: 壮大な戦いに備えよう