コラムサイエンス2026年6月2日

学術論文の”捏造引用”急増、AI幻覚が科学の信頼を揺るがす

AIによる捏造引用の問題は、単なる技術的欠陥ではなく、科学の知識基盤そのものに影響を与える構造的課題である。

現状（2026年6月時点）

2023年以降、生成AIの急速な普及に伴い、学術論文における「捏造引用（fabricated citations）」の問題が顕在化し、2025年から2026年にかけてその件数は明確な増加傾向を示している。とりわけ生物医学分野や社会科学分野において、存在しない論文や誤った書誌情報が引用される事例が複数報告され、査読過程を通過したケースも確認されている。

主要学術出版社や研究倫理機関は、AIによる執筆支援の拡大が引用の信頼性に新たなリスクをもたらしていると警告しており、研究公正の根幹に関わる問題として位置付けられている。この現象は単なる誤記ではなく、体系的な知識基盤そのものの劣化につながる可能性を孕んでいる。

現象の概要と背景：なぜAIは引用を「捏造」するのか

生成AIは、既存の知識ベースを参照しているように見えるが、実際には「それらしく整合的なテキスト」を生成することを目的としており、実在する文献の正確な検索・検証を必ずしも行っていない。そのため、実在の著者名、ジャーナル名、研究テーマを組み合わせて、もっともらしいが実在しない引用を生成する傾向がある。

特に学術論文形式では、引用の体裁（著者、年、タイトル、誌名など）が一定のパターンを持つため、AIにとっては生成しやすい領域であり、「もっともらしさ」と「実在性」が乖離する問題が顕著になる。この構造的特性が、捏造引用の発生を不可避的にしている。

AIが幻覚（ハルシネーション）を起こすメカニズム

AIのハルシネーションは、知識の欠如ではなく「過剰な一般化」と「確率的補完」によって生じる。モデルは不確実な情報に直面した際、空白を埋める形で最も尤もらしい内容を生成するため、結果として誤情報が出力される。

この現象は特に専門的文脈で顕著であり、訓練データに断片的に存在する知識を再構成する過程で、実在しない組み合わせが生成される。引用はその典型例であり、AIにとっては「文脈の一部」であって「検証対象」ではない。

確率的な文章生成（次単語予測）

生成AIは、次に出現する単語の確率を最大化する形で文章を生成する「自己回帰モデル」に基づいている。この仕組みにおいては、真偽よりも「文脈上の自然さ」が優先されるため、誤った情報でも流暢に生成される。

引用生成においても同様であり、「過去の論文に似た形式」が優先されるため、実在性の確認は行われない。したがって、捏造引用はバグではなく、このモデル構造の自然な帰結であると理解される。

執筆者の検証不足（コピペ）

問題の拡大には、人間側の行動も大きく関与している。特に若手研究者や非英語圏研究者において、AI生成の文章を十分に検証せず、そのまま論文に組み込む「コピペ的利用」が増加している。

研究時間の制約や出版プレッシャーも影響しており、「とりあえず形にする」ためにAIを利用し、その結果として誤った引用が見逃される構造が形成されている。この点で、問題はAI単体ではなく、人間との相互作用によって増幅されている。

データで見る現状と急増の動向

複数の出版社および研究倫理機関の報告によれば、2024年から2025年にかけて、AI生成が疑われる誤引用の検出件数は数倍に増加している。特にプレプリントサーバーでは、査読前段階での誤引用が頻発している。

また、引用の完全な不存在だけでなく、「著者名は正しいが論文が存在しない」「タイトルが微妙に異なる」など、部分的な捏造も増加しており、検出の難易度が高まっている。これにより、従来のチェック体制では対応しきれない状況が生じている。

爆発的な増加傾向

生成AIの普及率と捏造引用の発生率には強い相関が見られる。2023年のChatGPT公開以降、論文執筆におけるAI利用率は急上昇し、それに伴って誤引用の報告件数も指数関数的に増加している。

特に2025年以降は、複数のジャーナルで「AI由来の誤引用」がリトラクション（撤回）の理由として明記されるようになり、問題の可視化が進んでいる。この段階で、単なる個別事例から構造的問題へと認識が移行した。

全体数

正確な全体数の把握は困難であるが、大手出版社の内部調査では、投稿論文の数％に何らかのAI由来の誤引用が含まれていると推定されている。これは従来の誤引用率を大きく上回る水準である。

また、分野によって偏りがあり、AI利用が活発な分野ほど誤引用の発生率が高い傾向がある。特にレビュー論文やメタ分析においては、引用数が多いため影響が顕著である。

生物医学分野（ランセットの報告）

医学誌の代表格であるランセット（The Lancet）は、2025年にAIによる誤引用の増加について警告を発し、臨床研究における引用の厳格な検証の必要性を指摘した。報告では、AI生成テキストに含まれる引用のうち一定割合が検証不能であったとされる。

特に臨床ガイドラインや治療指針に影響を与える論文において誤引用が含まれる場合、その影響は患者安全に直結するため、問題の深刻性が強調されている。

極端な事例

極端なケースでは、論文の参考文献の半数以上が実在しないという事例も報告されている。また、完全に架空の研究分野や理論が引用として提示され、それが査読を通過したケースも存在する。

さらに、AIが生成した誤引用を別のAIが学習し、それを再び生成するという「誤情報の再生産」も確認されており、問題は単発ではなく連鎖的に拡大している。

既存の審査網（査読）の機能不全

査読制度は従来、研究内容の妥当性や新規性を評価することに重点が置かれており、すべての引用の実在性を検証する仕組みではなかった。そのため、AI由来の誤引用は査読プロセスをすり抜けやすい。

また、査読者自身がAIを利用するケースも増えており、検証の質が低下するリスクも指摘されている。このように、査読制度は現在の技術環境に対して十分に適応していない。

「科学の信頼」を揺るがす3つのリスク（影響分析）

捏造引用の問題は、単なる技術的課題ではなく、科学の信頼性そのものに関わる構造的リスクを内包している。以下では、その主要な3つのリスクを整理する。

これらのリスクは相互に関連しており、一つが顕在化すると他のリスクも連鎖的に拡大する可能性がある。

リスクA：蓄積型知識（累積的知見）の汚染

科学は累積的知識体系であり、過去の研究の上に新たな知見が構築される。そのため、誤った引用が混入すると、以降の研究にも誤りが連鎖的に伝播する。

この「知識の汚染」は、短期的には見えにくいが、長期的には研究分野全体の信頼性を低下させる。特にレビュー論文やメタ分析においては影響が増幅される。

リスクB：AIの自己参照（汚染データのループ）

AIは既存のテキストデータを学習するため、誤引用が含まれた論文がデータセットに取り込まれると、それが次世代のAIの出力にも影響を与える。この結果、誤情報が自己強化的に増幅される。

この「データ汚染ループ」は、AIの性能向上を阻害するだけでなく、誤情報の正当化を引き起こす危険性がある。

リスクC：臨床ガイドラインや法判断への悪影響

医学や法学の分野では、論文の内容が直接的に実務に影響を与える。誤引用に基づく研究がガイドラインや判例に反映されると、実際の判断や治療に誤りが生じる可能性がある。

特に医療分野では患者の生命に関わるため、影響の重大性は極めて高い。この点で、捏造引用は単なる学術問題を超えた社会的リスクを持つ。

体系的対策

この問題に対処するためには、技術・制度・教育の三層にわたる体系的な対策が必要である。単一の対策では不十分であり、複合的なアプローチが求められる。

以下では、それぞれの層における具体的な対応策を整理する。

技術的対策（システム側）

AIシステム側では、引用生成時に外部データベースと照合する「検証機構」の導入が重要である。例えば、DOIやPubMed IDなどを用いたリアルタイム検証が有効である。

また、生成結果に対して信頼度スコアを付与し、不確実な情報を明示する仕組みも有効である。これにより、利用者が誤情報を識別しやすくなる。

制度・倫理的対策（学会・雑誌側）

学術雑誌や学会は、AI利用に関するガイドラインを明確化し、引用の検証責任を著者に明示する必要がある。さらに、投稿時にAI利用の有無を申告させる制度も有効である。

加えて、査読プロセスにおいて引用検証ツールを導入し、機械的なチェックを補完する仕組みが求められる。

教育的対策（研究者側）

研究者に対しては、AIの限界とリスクに関する教育が不可欠である。特に若手研究者には、引用の検証を徹底する習慣を身につけさせる必要がある。

また、AIを補助ツールとして適切に利用するリテラシーの向上が求められる。これにより、技術と人間の役割分担が明確になる。

今後の展望

今後、AI技術の進化により、引用の正確性は一定程度改善される可能性があるが、完全な解決は困難である。むしろ、問題は「AIをどう使うか」という人間側の問題として残り続ける。

そのため、技術的進歩と並行して、制度設計と教育の強化が不可欠である。特に、研究公正の再定義が求められる局面にある。

まとめ

AIによる捏造引用の問題は、単なる技術的欠陥ではなく、科学の知識基盤そのものに影響を与える構造的課題である。確率的生成という仕組み上、この問題は本質的に不可避である。

したがって、対策はAIの改良だけでなく、人間の行動、制度設計、教育の三位一体で進める必要がある。科学の信頼を維持するためには、これらを統合した包括的な対応が求められる。

参考・引用リスト

The Lancet（2025）AIと医学論文の信頼性に関する報告
Nature（2024-2025）AI生成テキストと研究倫理に関する特集
Elsevier Research Integrity Reports（2025）
Committee on Publication Ethics ガイドライン（2024-2026）
International Committee of Medical Journal Editors Recommendations（最新版）
PubMed データベース分析報告（2025）

構造的要因の深掘り：なぜ学術インフラはAIに敗北したのか

第一に、学術インフラは本質的に「信頼前提型システム」で構築されてきた点に根本的な脆弱性がある。論文、査読、引用という一連のプロセスは、研究者が誠実であるという前提に依存しており、情報の真偽を逐一検証する設計にはなっていない。

生成AIはこの前提を逆手に取る形で、外見的に整合的な情報を大量生成するため、従来の「形式的整合性＝信頼性」という評価軸を容易に突破する。この結果、学術インフラは「検証能力」ではなく「信頼慣行」に依存していたことが露呈した。

第二に、学術出版の構造的圧力が問題を増幅している。論文数の増加、インパクトファクター競争、迅速な公開への要求が強まる中で、査読の質は相対的に低下し、精査よりも処理速度が優先される傾向が強まった。

この環境において、AIは「効率化ツール」として歓迎されつつも、その副作用である誤情報生成への警戒は後手に回った。結果として、学術インフラは自らの制度的要請によってAIの影響を受けやすい状態を作り出した。

第三に、デジタル化と分業化の進展が「責任の空洞化」を招いた点も重要である。著者、査読者、編集者、出版社の役割が細分化される中で、誰が最終的に引用の正確性を担保するのかが曖昧になっている。

この責任の分散構造により、AIが生成した誤引用が見逃されても、個別主体がそれを是正するインセンティブが弱くなる。結果として、システム全体としての防御力が低下している。

「ゼロトラスト学術エコシステム」の具体像と技術的防衛

従来の信頼前提型から脱却するためには、「ゼロトラスト（無条件信頼の否定）」の概念を学術エコシステムに導入する必要がある。すなわち、すべての引用・データ・主張を「検証されるまで信用しない」という前提に立つ設計である。

具体的には、引用の自動検証インフラの構築が中核となる。例えば、DOI登録機関であるクロスリファレンス（CrossRef）や、文献データベースであるPubMedとリアルタイムに照合し、引用の実在性・一致性を機械的に検証する仕組みが必要である。

さらに、論文単位ではなく「主張単位」での検証も重要となる。すなわち、個々の結論やデータがどの文献に依拠しているかを構造化し、そのリンクの正当性を検証可能にする知識グラフ的アプローチが求められる。

また、ブロックチェーンや分散台帳技術を応用し、引用履歴や修正履歴を不可逆的に記録することで、後からの改ざんや誤情報の拡散を抑制する試みも検討されている。これにより、「いつ、誰が、何を根拠に主張したか」が透明化される。

加えて、AI自身にも「自己検証機構」を組み込む必要がある。生成時に外部データベースとの照合を義務付け、検証不能な引用については生成を抑制する、あるいは明確に不確実性を表示する設計が求められる。

「研究者倫理」の再定義

AI時代においては、従来の研究者倫理の枠組みでは不十分である。これまでは「捏造・改ざん・盗用（FFP）」が主要な不正行為とされてきたが、AIの登場により「無自覚な誤情報の流通」という新たな問題が浮上している。

したがって、倫理の焦点は「意図」から「結果」へとシフトする必要がある。すなわち、故意でなくとも誤った情報を流通させた場合、その責任をどのように評価するかが重要な論点となる。

また、「検証責任」の明確化が不可欠である。AIを利用した場合でも、最終的な内容の正確性は著者が保証するという原則を再確認し、その具体的な義務（引用チェック、データ検証など）を明文化する必要がある。

さらに、AI利用の透明性も倫理の重要な要素となる。どの部分にAIを用いたのか、どの程度の関与があったのかを開示することで、読者や査読者がリスクを評価できるようにする必要がある。

「科学の砂上の楼閣化（嘘の上に嘘を重ねる歴史）」

捏造引用の問題が深刻なのは、それが単発の誤りではなく「累積的な虚構」を生み出す可能性がある点にある。すなわち、一つの誤引用が次の研究に引用され、それがさらに別の研究に引用されることで、実在しない知識があたかも確立された事実のように振る舞う。

この現象は、歴史的にも「引用の連鎖」による誤情報の固定化として知られているが、AIの登場によりその速度と規模が飛躍的に拡大している。従来は人間の認知的制約によって抑制されていた拡散が、AIによって加速されている。

特に危険なのは、「二次引用の連鎖」によって原典が確認されないまま情報が流通するケースである。AIはしばしばこの構造を強化し、実在しない原典を起点とする「疑似的な学説体系」を生成する可能性がある。

この状態が進行すると、科学は実証に基づく体系から、テキスト間の相互参照によって成立する「自己完結的な言説体系」へと変質する。これは科学の根本原理である再現性や検証可能性を侵食する。

さらに、AIがこの「虚構の体系」を学習データとして取り込むことで、誤情報が次世代の知識生成に組み込まれる。この循環は、いわば「知識のエントロピー増大」とも言える現象であり、放置すれば科学の基盤そのものが劣化する。

学術インフラがAIに「敗北した」とされる本質は、技術的優劣ではなく、設計思想の違いにある。すなわち、信頼に依存するシステムと、確率的生成を行うシステムの間に構造的な不整合が存在していた。

この不整合を解消するためには、「信頼を前提としない設計」への転換が不可欠である。それは単なる技術導入ではなく、科学という制度そのものの再設計を意味する。

最終的に問われているのは、「何をもって科学的知識とみなすのか」という根本問題である。AI時代においては、正しさは自明ではなく、継続的に検証されるプロセスとして再定義されなければならない。

最後に

本稿で検証してきた「学術論文における捏造引用の急増」という問題は、単なる技術的な不具合や一過性の混乱ではなく、科学という知識体系の根幹に関わる構造的危機であることが明らかとなった。生成AIの普及は研究活動の効率化と引き換えに、知識の信頼性を支えてきた前提そのものを揺るがしている。

まず重要なのは、AIによる捏造引用が「例外的な誤り」ではなく、確率的言語生成という仕組みの帰結である点である。生成AIは意味の真偽を理解しているわけではなく、あくまで文脈上の自然さに基づいて次の単語を選択するため、もっともらしいが実在しない引用を生成することは構造的に避けがたい。この特性を誤解したまま利用することが、問題の出発点となっている。

同時に、この問題はAI単独ではなく、人間側の行動様式と制度設計によって増幅されている。研究者がAI生成テキストを十分に検証せずに使用する「コピペ的利用」、出版競争による時間的制約、査読制度の負荷増大といった要因が重なり、誤引用が見逃される環境が形成されている。すなわち、技術と制度と人間の相互作用によって問題は拡大している。

現状のデータからも、この現象が急速に広がっていることは明白である。特に生物医学分野においては、臨床的意思決定に影響を与えかねないレベルで誤引用が確認されており、その影響は学術界にとどまらず社会全体に及ぶ可能性がある。これは単なる品質問題ではなく、安全性の問題へと転化している。

さらに深刻なのは、この問題が「累積的知識体系」に与える影響である。科学は過去の研究の上に新たな知見を積み重ねる構造を持つため、一度誤った情報が混入すると、それが後続研究に連鎖的に影響を及ぼす。この意味で、捏造引用は単発の誤りではなく、「知識の汚染」として理解されるべきである。

加えて、AIの自己参照的な学習構造は、この汚染を加速させる。誤引用を含む論文がデータセットに取り込まれ、それを基に新たなテキストが生成されることで、誤情報が自己増殖的に拡大する。この「データ汚染ループ」は、従来の人間中心の知識伝達では考えられなかった速度と規模で進行する。

また、医学や法学のように実務と直結する分野においては、誤引用の影響は直接的な被害をもたらし得る。臨床ガイドラインや司法判断が誤った知識に基づく場合、その結果は極めて重大である。この点において、問題は学術内部の議論にとどまらない公共的課題となる。

こうした状況を踏まえると、従来の学術インフラがなぜこの問題に対して脆弱であったのかが浮き彫りになる。最大の要因は、学術システムが「信頼前提」で設計されてきた点にある。すなわち、研究者が誠実であることを前提とし、引用の実在性を逐一検証する仕組みを持たなかったことが、AI時代において致命的な弱点となった。

さらに、出版圧力や分業化による責任の分散も、検証機能の低下を招いた。誰が最終的に情報の正確性を担保するのかが曖昧なまま、システム全体としてのチェック能力が低下している。この構造は、AIが生成する誤情報を容易に通過させる環境を作り出している。

このような背景から導かれるのが、「ゼロトラスト学術エコシステム」への転換の必要性である。すなわち、すべての情報を原則として疑い、検証されるまで信頼しないという設計思想への移行である。これは従来の学術文化にとって大きなパラダイムシフトであるが、AI時代においては不可避の選択である。

具体的には、引用の自動検証、外部データベースとの照合、主張単位でのトレーサビリティ確保など、技術的な防衛策が中核となる。また、履歴の透明化や改ざん防止のための分散台帳的アプローチも有効である。これにより、情報の信頼性を構造的に担保する仕組みが構築される。

しかし、技術的対策だけでは十分ではない。制度的・倫理的な再設計も不可欠である。学術雑誌や学会はAI利用に関する明確なガイドラインを整備し、引用検証の責任を明確化する必要がある。同時に、査読プロセスにも新たな検証機構を組み込むことが求められる。

研究者倫理についても再定義が必要である。従来の不正概念である捏造・改ざん・盗用に加え、「無自覚な誤情報の流通」という問題に対応する枠組みが必要となる。ここでは意図ではなく結果に着目し、AI利用を含めた情報生成の責任をどのように負うかが問われる。

さらに、AI利用の透明性確保も重要である。どのようにAIを用いたのかを開示することで、読者や査読者がリスクを適切に評価できる環境を整える必要がある。これは単なる形式的要件ではなく、信頼の再構築に不可欠な要素である。

教育の側面も見逃せない。研究者、特に若手に対して、AIの特性と限界を理解させ、適切な利用方法と検証習慣を身につけさせることが重要である。技術を排除するのではなく、制御可能な形で統合する能力が求められる。

そして最も根源的な問題として、「科学の砂上の楼閣化」が挙げられる。すなわち、誤った情報が引用を通じて蓄積され、あたかも確立された知識のように振る舞う現象である。AIはこのプロセスを加速させ、虚構の知識体系を短期間で形成する可能性を持つ。

この状況が進行すれば、科学は実証に基づく体系から、テキスト間の整合性によって維持される自己完結的な言説体系へと変質する危険がある。それは科学の本質である検証可能性と再現性を侵食し、最終的には社会からの信頼を失う結果を招く。

したがって、本問題への対応は単なるリスク管理ではなく、科学という制度の再定義を伴うものである。信頼に依存する従来モデルから、検証に基づく新たなモデルへの転換が求められている。この転換は困難であるが、回避することはできない。

結論として、AIによる捏造引用の問題は、「技術の問題」ではなく「制度と文化の問題」である。生成AIは既存の弱点を可視化し、増幅したに過ぎない。したがって、解決の鍵はAIの改良だけでなく、学術インフラ全体の再設計にある。

今後の科学が信頼を維持できるかどうかは、この課題にどのように向き合うかにかかっている。検証可能性を中心に据えた新たな知識体系の構築こそが、AI時代における科学の存続条件である。