MENU

情報・システム研究機構シンポジウム2019

講演1

【招待講演】
    「データ主導の自然言語処理の意義と限界」

宮尾 祐介氏(東京大学大学院 情報理工学系研究科 コンピューター科学専攻 教授)

 人間の言葉(自然言語)の仕組みを明らかにする研究は古くから行われてきた。近年、大規模テキストデータと機械学習技術を用いることで新たな展開を見せている。その研究成果は、機械翻訳やスマートスピーカー、チャットボットなど、身近なアプリケーションにも応用されている。最新の研究では、文章読解や質問応答などでコンピューターが人間を超える精度を持ったとも報告されている。

 しかし、その一方で、人間のように自然言語を自由に操ることが可能なコンピューターシステムは、まだ実現されていない。このギャップには何があるのか。データ主導による自然言語処理の成果と限界を通して解説する。

sympoimg2019-1

■私たちの言葉のやりとりも「計算」できる

 宮尾祐介教授(東京大学大学院情報理工学系研究科)は「情報科学あるいはコンピューターサイエンスは、世の中の森羅万象を『計算』という概念で解き明かそうという学問です」と語る。自然言語も研究の対象の一つで、「今日は良い天気ですね」という日本語を入力して「It’s fine today」という英語に出力するのも、「計算」という概念で捉えることができるという。

 式にすれば「 y = f ( x )」。「 x 」は入力で「 y 」は出力。この入力と出力の間をつなぐ「 f 」の計算の仕方が分かれば、「今日は良い天気ですね」→「It’s fine today」という翻訳を機械的にできるようになる。

 「文章読解の課題に取り組む研究者は、大学入試の英語のテストで出てくるような長文読解の問題を計算で解こうとしています。かつては『人間は脳の中でこんな計算をしているのだろう』とプログラムを作ってクリアしようとしましたが、うまくいきませんでした。この壁を突破したのが『データ主導の自然言語処理』です」

 入力と出力の間をつなぐ「 f 」の計算方法が分からなくても、人間なら「こういった入力があったら、こういった出力が良さそうだ」と経験的に分かる。

 「それなら人間が入力と出力の正解ペアをたくさん作り、そこに潜む計算方法をコンピューターに自ら獲得させればいいというわけです。これが「機械学習」です」

 例えば、「教師付き統計的機械学習」では、大量の正解ペアが入った学習用データセットをコンピューターのプログラムに入れると、自動的に「モデル」が作り出される。すると、新しい入力に対して、このモデルの下で適切な出力を出すようになる。よく耳にする「深層学習」も基本的に同じ原理で、学習データから「 f 」を作り出す調整をひたすら繰り返すことで、精度の高い複雑な計算を実現する。

■データセットの癖を学習してしまう機械

 「私たちの分野では『SQuAD』と呼ばれる、文章読解のための大規模データセットがあります。約10万本のウィキペディアの記事から抽出した文章を用いて作った問題と正解のセットで、これを使って深層学習で機械に学習させると、最新モデルでは文章読解の問題の正答率が90.1 %に達します」

 人間の正答率は平均で86.8 %。ついにコンピューターは人間を越えたのだろうか。「必ずしもそうではない」と宮尾教授。ある最新の研究で、SQuADの文章を人間では意味を読み取れないように「副詞1」や「動詞5」と置き換えて、コンピューターに処理させるという実験があったという。

 「意味を読み取れない文章でも正解を導けてしまうのなら、コンピューターは人間の自然言語処理とは異なる計算をしていることになります。結果はどうだったか。正解してしまったのです。つまり、コンピューターはデータセットの癖のようなものを学習しているに過ぎません」

 全ての入力に対して、人間と同じ出力となる計算の根本的な仕組みは何なのか。「私は、人間の頭の中と同じ計算方法を探ってアプローチしたいと考えています」と宮尾教授。「計算」について考えることは、人間に対する深い理解へとつながっていく。