2026年03月16日

ハルシネーションを抑えるための技術「RAG」とは何か

大越章司

前回のコラムで、ハルシネーションの原因は主にふたつあると書きました。ひとつは、AIが学習するネット上のデータには、誤りや偏りが含まれているかもしれないこと。もうひとつが、AIモデルの学習には時間がかかるということでした。これらの問題は、膨大なデータを学習してモデルを構築するという今の生成AIの仕組み上避けられないものですが、少しでもハルシネーションを少なくしようという努力が続けられています。
その中には、以前書いた「わからないことはわからないと言う」といったものも含まれますが、効果は限定的です。そのような中で大きな成果を出しているのが、RAGと呼ばれる技術です。

RAGはRetrieval-Augmented Generationの略で、訳は検索拡張生成です。何やら難しい言葉ですが、要は「生成AI利用の都度、最新かつ正確なデータを外部から提供する」ということです。
具体的には、生成AI本体の学習はこれまでどおり行います。（ある程度の選別は行います）これにより、生成AIの基本性能といえる言語生成能力を確保します。そのうえで、ユーザーから問い合わせがあった際に外部のデータを参照して、その中に該当するデータが有ればそれを加味して回答を生成します。

外部データとして使われるのは、例えばネットのニュースサイトや企業の公式情報、製品マニュアルやFAQといった、「最新かつ正確なことが期待できるデータ」です。これにより、「現在の日本の首相は」「先週のニュースにあったｘｘについて」などの質問に正確に答えることができるのです。

以前も書いたように、今の生成AIの仕組みを使い続ける限り、ハルシネーションを完全になくすことはできないとされています。しかし考えてみれば私たち人間も、勘違いや物忘れ、思い違いなど、完璧な知識を常時提供するのは不可能です。ある研究によると、今の生成AIが間違う確率はすでに人間よりも低くなっているということですし、そろそろAIの間違いに目くじらを立てるのではなく、上手に使っていくことを考えるのが良さそうです。

大越章司