ChatGPTはなぜ嘘をつく？誤情報を生成するその理由とは

OpenAI社の生成AIである「ChatGPT」は、まるで人間かのような自然な回答を行うチャットボットとして機能し、文章生成や翻訳を行います。さらに、資料作成やプログラミングも人間よりはるかに速いスピードで行えることから、あらゆる分野でゲームチェンジャーとなる可能性を秘めているとして注目されていることはご存知のとおりです。

その一方、多くの人がこのAIチャットボットを利用するようになったことで、生成された回答に誤った情報が含まれていることが問題視されはじめました。これは生成系AIの仕組みから起こりえることなのですが、急速に多くの人に普及したことからその影響は大きく、社会問題化しつつあります。

今回は、ChatGPTが生成した誤った情報をめぐる動きや、誤った回答が生成される根本的な原因などを解説します。

ChatGPTによる誤情報の生成がなぜ問題になったのか

多くの人にとってChatGPTは「夢のツール」にみえた

2022年11月に公開されたAIチャットボット「ChatGPT」は、非常に優れた自然言語処理を行うAIです。

自然言語処理とは、人が日常的に使っている言語をさまざまな面からコンピューターが正しく理解する技術で、生成系AIの中でももっとも重要な分野のひとつとされています。ChatGPTはこの自然言語処理技術に優れているため、人間が打ったテキストをかなり正確に理解し、人が答えているかのような自然な回答をします。

その結果、多くの人がChatGPTの回答に説得力を感じ、「ChatGPTに聞けばいろいろなことがわかる」と考えるようになりました。その背景には、OpenAIの開発パートナーが「Microsoft」であることの信頼感も影響しているかもしれません。

しかしそれは「幻覚」かもしれない

こうした性能を持って、ChatGPTが「正しいことを教えてくれるツール」かというと、それは「幻覚」かもしれません。

AIの世界には「ハルシネーション（幻覚）」という言葉があります。これは、AIが事実に基づかない情報を生成することを指し、「AIがもっともらしい嘘をついた」ように感じられる状況をいいます。

ハルシネーションは、仕組み上すべての生成系AIで起こりえるものであり、ChatGPT特有の問題ではありませんが、ChatGPTはセンセーショナルにデビューし、しかもかなりのスピードで人々の間に広がったため、生成系AIへの理解が間に合わなかった側面があります。

なお、ChatGPTのこうした特性は今にはじまったものではなく、OpenAI社のAIモデル「GPT-2」が開発された2019年の時点で、一部の専門家から誤解や偏見を含む文章を生成することを指摘されていました。

しかし、誤情報を生成したからといって「ChatGPTはダメだ」と考えるのは誤りといえるでしょう。ハルシネーションの問題を改善する必要に迫られてはいるものの、ChatGPTが革新的なツールであることに変わりはありません。

生成系AIをめぐる規制・法整備の動き

2023年7月には、消費者保護の観点からアメリカのFTC（米連邦取引委員会。日本での公正取引委員会に相当する機関）がOpenAIの調査に乗り出しました。

調査の内容は大きく2つあり、ひとつはアメリカで集団訴訟にもなっている学習データにおけるプライバシーの問題です。そしてもうひとつは、AIの訓練手法、つまり「幻覚＝ハルシネーション」を防ぐための管理体制に関するものになります。

生成系AIの社会への影響の大きさから、アメリカを先頭として各国で法整備に向けた動きが進んでおり、日本でもリスク低減のための法整備を進めようとする動きがあります。今後は生成系AIにもさまざまな規制が適用され、それに伴ってリスクは低減されることでしょう。

しかし、それらが本格的に機能するようになるまでにはまだ時間がかかると考えられます。そのため、利用者は生成系AIを正しく理解して付き合っていくことが大切です。

ChatGPTはなぜ誤情報を出力するのか

まずはChatGPTに理由を聞いてみる

ChatGPTはなぜ誤情報を出力するのか、まずはその理由をChatGPTに尋ねてみましょう。

========================================================

Q.ChatGPTが誤った情報を出力するのはなぜですか？

A.ChatGPTが誤った情報を出力する主な理由はいくつかあります。それには次の要因が含まれます。

トレーニングデータの偏り：モデルがバイアスや不正確な情報が含まれたデータでトレーニングされると、誤った情報を学習し出力する可能性があります。

文脈理解の難しさ：モデルは複雑な文脈を理解するのに苦労し、特に曖昧な質問や不十分な文脈の場合には不正確な回答が生成されることがあります。

人間のバイアスの反映：ChatGPTは人間が生成したデータから学習するため、そのデータに含まれるバイアスがモデルの出力に影響を与えることがあります。

========================================================

ChatGPTは3つの理由を回答しました。トレーニングデータの偏りと人間のバイアスの反映はどちらも学習データの内容に関するものなので、主な理由は次の2つに集約されます。

・学習データ（トレーニングデータ）の内容に問題がある

・利用者の問いかけの真の意味が理解できなかった

それぞれを掘り下げて解説していきます。

誤情報を出力する1つ目の原因「学習データの内容」

ChatGPTをはじめとする大規模言語モデルは、大量のデータによりトレーニングされています。GPTは「Generative Pre-trained Transfomer」の頭文字を取ったものですが、ここにも「Pre-trained（学習済）」という言葉が含まれています。

AIは大量のデータを学習し、それに基づいて推論を行うため、学習データが多ければ多いほど答えられる範囲が広くなる、もしくは詳しい内容まで答えられるようになります。反対に学習データが少なければ回答できることは少なくなるため、大規模言語モデルの開発には学習データの収集がひとつの大きなテーマになります。

こうした仕組みは、生成系AIの回答内容が、学習データの内容に依存することを意味します。学習データの内容が間違っていれば間違った答えを出力しますし、何らかの思想が反映されたものであれば答えもそうした思想を反映したものになるわけです。

大規模言語モデルの作成者は、あらゆる場所から大量にデータを集めていますが、その大量のデータ中に、誤った内容や、差別的な内容、偏った意見に基づいた内容などが含まれていた結果、大規模言語モデルがそれらを反映し、社会的に問題となるような回答を行ったと考えられます。

誤情報を出力する2つ目の原因「質問の意味がわからない」

ChatGPTは、人が与えた文字列に対し、そこに続く文字列を生成するように動作する仕組みです。実際に会話をしているわけではなく、会話しているように見せているので、人であれば捉え方に迷うような問いかけにも、基本的に確認することなく答えを出します。

そのため、人の与える文字列（質問）が曖昧であったり、幾通りもの捉え方があったりする内容だと、ChatGPTの答えは意図しないものになりがちです。現状、ChatGPTから的確な回答を引き出すためには、問いかける側にも技術や工夫が必要といえるでしょう。

ChatGPTは正しいことを教えてくれているようにみえますが、実際には人の投げかけた言葉に続きそうなものを返しているに過ぎないことを理解することは大切です。

ChatGPTや生成系AIは「嘘」をつかなくなるか

少なくとも現時点では、ChatGPTをはじめとする生成系AIが誤情報を生成する可能性があることをおわかりいただけたと思います。では、いずれ誤情報を完全に生成しなくなる日が来るのでしょうか。

これは、学習データの内容が「正しい」ものになり、さらに学習データ量が増え、人間がChatGPTに投げかけた曖昧な質問の意図を正確に捉えられるようになれば可能になるでしょう。今後、生成系AIはそういった方向で開発が進められ、法規制も行われると考えられるため、答えは限りなく「YES」に近いはずです。

一方で、そうした取り組みが一定の成果を上げるまでの間、間違った回答を避けるため、AIが回答を拒絶するケースも出てくるでしょう。その結果、自由度は低くなる可能性もありますが、利用者はそうした事情や、生成系AIの特性を理解して利用する必要があります。

OpenAIは現在のAIモデル「GPT4」から方針を変更し、今後は詳細な技術情報を非公開にしました。今後、再びの方針変更がない限り、GPTがどのように答えを生成しているかはOpenAIとMicrosoftだけが知るところとなります。その理由は、主にGPTの普及による社会的影響の大きさ、悪用される危険性を考えてのことといわれています。

AI自体は徐々に嘘をつかなくなる（誤情報を生成しなくなる）かもしれませんが、嘘をつくため（詐欺や大衆の揺動のため）に使われるようになるかもしれません。生成系AIの登場という大変革を目の前にして、私たちは新たなリテラシーを身につける必要に迫られているようです。