« さっと手の挙がる英語社会 | トップページ | ディープラーニングの衝撃 »

2016年7月17日 (日)

機械翻訳の困難さ

(全体の目次はこちら


機械翻訳の困難さ

- 一般常識がなければうまく訳せない -

 

囲碁といい、将棋といい、
車の自動運転といい、
ここのところ「人工知能」に関する
ニュースは賑やかだ。

「人間を超えたら」といった問いが、
笑い話にならなくなりつつある分野もあり、
純粋な技術以外での話題も多い。

大きな書店では、
人工知能関連書籍のコーナを
目にすることも多くなってきた。
ところが、一種の「流行」の宿命か、
内容のほうは
キーワードを並べただけの
薄いものも多い。

そんな中、人工知能研究の
ど真ん中にいる専門家が
その歴史と課題を
わかりやすく説いた
この本はお薦めだ。

松尾豊著
「人工知能は人間を超えるか
 ディープラーニングの先にあるもの」
角川EPUB選書


本からいくつかエピソードを
紹介したいと思っているのだが、
まず最初に
人工知能の前提というか出発点を
はっきりさせておきたい。
(以下水色部、本からの引用)

人工知能をつくるときに、
よくたとえられるのが、
飛行機の例である。

人間は昔から空を飛びたいと思っていた。
鳥のまねをするような「はばたく」飛行機を
何度もつくろうとしたが失敗した。

そして初めて成功したライト兄弟の飛行機は、
エンジンを積んだ「はばたかない」飛行機であった。

つまり、生物をまねしたいと思っても、
必ずしも生物と同じようにやる必要はないのだ。

 飛行機の場合は、
鳥が飛ぶための「揚力」という概念を見つけ、
揚力を得るための方法
(エンジンで推進力を得て、
 翼でそれを揚力に変える)を
工学的に模索すればよかった。

人工知能においても、知能の原理を見つけ、
それをコンピュータで実現すればよい。

それが人工知能という領域の
そもそもの出発点である。

ポイントは、
生物が持っている知能の仕組みそのものを
真似しようとしているわけではないという点だ。
ちょっと頭のすみに置いておこう。

 

では、具体的な例として
人工知能研究の一分野、
「機械翻訳」をとりあげて
その実現の困難さを少し覗いてみたい。

たとえば、こんな例文を考えてみよう。

He saw a woman in the garden with a telescope.

(逐語訳をすると
 「彼 見た 女性 庭の中で 望遠鏡で」となる)

 たいていの人は、これを
「彼は望遠鏡で、庭にいる女性を見た」
と訳す。
読者の方も
おそらくそう読んだのではないかと思う。

 

これをグーグル翻訳で訳してみると...

 ところが、実は、この解釈は
文法的には一意に定まらない
のである。

庭にいるのは彼なのか、それとも女性なのか。

望遠鏡を持っているのは彼なのか、女性なのか。

実際、グーグル翻訳では、
「彼は望遠鏡で庭で女性を見た」と訳される。
庭にいたのは女性ではなく彼だと解釈している。

ところが、人間にとっては、
これはちょっと不自然である。

何となく
「彼は望遠鏡で景色を見ていたところ、
 たまたま庭にいる女性を見つけて
 心惹(ひ)かれている」
というシチュエーションが思い浮かぶ。

だから、「女性は庭に」いなくてはいけないし、
「彼は望遠鏡で」
覗き見していないといけないのである。

 

訳が自然な感じ、はどこから来るのだろう?

 なぜ人間にわかるのかといえば、
それまでの経験から
「何となくそのほうがありそうだ」
と判断しているだけで、説明するのは難しい。

これをコンピュータに教えようとすると、
「望遠鏡で覗いているのは男性のほうが多い」、
あるいは
「庭にいるのは女性のほうが多い」
というような知識を入れるしかない。

 この場合だけに
対処すればいいのであれば簡単だが、
同じことがあらゆる場面で発生する。

庭ではなく、山にいるのは
男性が多いのか女性が多いのか。
川にいるのは男性が多いのか女性が多いのか。
あるいは、外国人が庭にいるのは
不自然なのかそうでないのか。

相撲取りが庭にいるのは
不自然なのかそうでないのか…。

そうしたあらゆる事態を想定して、
必要となる知識を入れる作業がいかに膨大で、
いかにばかげたことか、容易に想像できるだろう。

 単純な1つの文を訳すだけでも、
一般常識がなければうまく訳せない

ここに機械翻訳の難しさがある。

一般常識をコンピュータが扱うためには、
人間が持っている
書ききれないくらい膨大な知識を扱う必要があり、
きわめて困難である。

同じような例で
こんな日本語の例文を見た覚えがある。

「黒い瞳の大きな女の子」

これも
黒いのは  瞳なのか、女なのか、
大きいのは 瞳なのか、女なのか、
子は、女の「子」なのか、「女子」なのか?

文法的に解釈できる解を考えると
意味は一意には限定できない。

では、次の場合ならどうだろう。
文法的には全く同一の構文だ。

「黒い排気量の大きなトヨタの車」

並べてみよう。

 (1)「黒い 瞳 の大きな 女 の子」
 (2)「黒い排気量の大きなトヨタの車」

(1)が上で述べたように、
意味が一意に定まらないことに対し、
(2)の解釈には全く迷わない。
それはなぜか。
まさにそれを支える
一般常識と呼ばれる知識があるからだ。

この「知識」の部分をどう扱うかが、
人工知能研究の最も大きな課題のひとつであり、
またおもしろいところでもある。

「知識」を詳述すればキリがなくなり、
荒く記述してもOKということにしてしまうと
それ故に精度が上がらなくなってしまう。

松尾さんも書いている通り、
そもそもそんなことを
入力することができるのだろうか?
という疑問もある。

 

「知識」の扱いは、
もちろん自動翻訳に限らない。

ネコの写真を見たとき、
写っているのはネコだ、と理解するためには
「ネコというのはこういうものだ」を
知識として持っている必要がある。

だから、
「知識をどう与えるか」に
「知識をどう記述するか」に、
多くの人が悩み、取り組んでいた。

そこに、ある画期的な技術が登場することになる。

長くなって来たので、続きは次回に。

 

 

 

(全体の目次はこちら

 

 

 

 

« さっと手の挙がる英語社会 | トップページ | ディープラーニングの衝撃 »

ニュース」カテゴリの記事

書籍・雑誌」カテゴリの記事

科学」カテゴリの記事

コメント

コメントを書く

(ウェブ上には掲載しません)

トラックバック

この記事のトラックバックURL:
http://app.f.cocolog-nifty.com/t/trackback/1756499/66553796

この記事へのトラックバック一覧です: 機械翻訳の困難さ:

» 侵略する人々 end [哲学はなぜ間違うのか]
侵略は人々の身体を物理的に威嚇する悪の行為です。しかし、武力、科学技術力、栄養補給システムの効率、集団的免疫力などに明確な格差がある場合、効率に優れた栄養補給システムが拡散する過程として、侵略は、歴史を見る限り、必然的に起こり得る現象である、といえます...... [続きを読む]

« さっと手の挙がる英語社会 | トップページ | ディープラーニングの衝撃 »

2017年5月
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      
無料ブログはココログ