ハルシネーションとは
生成 AI(ChatGPT・Claude など)が、学習データにない情報を「本当のように」作り出してしまう現象。
具体例:
- 存在しない論文を引用
- 実在しない製品スペックを説明
- 間違った統計数字を生成
- 架空の企業を説明
ハルシネーションが発生する理由
原因 1:確率的な言語生成
LLM は「次の単語は何か確率的に予測」する仕組み。学習データにない領域では、もっともらしい「予測」を生成してしまう。
例:
質問:「〇〇という論文について」
LLM:学習データに〇〇論文がない
→ もっともらしい論文情報を「生成」してしまう
原因 2:学習データの時間的遅延
LLM の学習は過去データで止まっているため、最新の情報は学習されていない。
例:
質問:「2026 年の日本 GDP は?」
LLM:2024 年までしか学習していない
→ 2024 の数字を「2026 と言い張る」または作る
AI 検索(ChatGPT Search・Perplexity AI)とハルシネーションの関係
RAG による改善
ChatGPT Search・Perplexity AI は RAG(検索強化生成) を使うことで、ハルシネーションを大幅に削減。
ユーザー質問
↓
【Web 検索】リアルタイムで情報取得(ハルシネーション防止)
↓
【生成】検索結果をベースに回答生成
↓
【出典表示】「この情報はこのサイトから」と明記
残存するリスク
ただし完全には排除されず:
- 検索結果の内容が不正確な場合
- LLM が複数の情報を誤ったまま統合
- 出典の捏造
Web サイト運営者への影響
AI 検索がハルシネーションを避けるため、「信頼できるソース」が優先される。
ハルシネーション回避のため AI が重視する情報:
- 構造化データで明示されたもの
- 複数メディアで引用されているもの
- E-E-A-T が高いサイト発の情報
- 公式サイトの情報
→ つまり、個人ブログより公式サイト、新聞より専門ブログが優先される傾向がある。
ハルシネーション低下への対策(サイト側)
□ 統計・数字は必ず出典を明記
□ 公式引用(企業プレスリリース等)を優先
□ E-E-A-T を高める(著者情報充実)
□ 複数ソースでの言及を示す
□ 「〇年現在」など時間を明記
□ 定期的に内容を更新(dateModified を更新)
AI 検索の品質は、Web コンテンツの質で決まる。ハルシネーション対策は、同時に AEO 対策でもある。