2011年2月20日日曜日

形態素解析処理は必要か

最近よく考えているのは、形態素解析というのは実は不要なのではないか、と言うこと。

現在の「形態素解析処理」は、『形態素』あるいは『単語』という単位を決めて、それに『品詞』なるタグを振っている。それら『形態素』や『品詞』は、人間の都合で決めたものである。
しかし、これは必要だろうか。

実は人間が文字を書いたり会話したりするときにそれを意識しているわけではない。
その一方で、これまでの『自然言語処理』研究の流れの中では、当然のごとく必要とされてきている。

現在、ほとんどの自然言語処理システムの根幹にあるのが、『形態素解析処理』である。
この仕組み自体は、枯れた技術となってきており、フリーのプログラムも出回っているし、自然言語処理を全面に出している企業なら、容易に自社開発できるレベルである。(学生ですら自作できるだろう。)

しかし、問題になるのは『形態素』である。既存の単語については追加すれば対応可能であるが、新語が出てきた場合には、なかなかむつかしい。わかり易い例は、たとえば、外国人の名前だろうか。
また、その単位にも異論がある。(「横浜市/役所」なのか「横浜/市役所」なのかなど、多数の例があるが、厳密に書こうとするときりがないので割愛)

形態素解析の辞書をひたすらメンテナンスするというのも一つの方法であるが、”今”の言葉に追いつくことはできない。可能ならば、自動的に、新語や適切な単位を認識して欲しいところである。

ある人は言う。「人間には出来ているじゃないか。その仕組みを機械に組み込めばいいじゃないか」と。人間がどのように理解しているかすら判明していないことを彼は知らない。

ひたすら、形態素を追加するというのは、非現実的である。それを自動化できるくらいなら、最初からシステムに組み込めば良いわけで、そう言うわけにもいかない。

人間は、形態素あるいはそれに類する単位を認識しているのは間違いないように見える。
従って、形態素が不要だと考えているわけではない。

しかし、現在の”形態素解析システム”を前提とした仕組みで、自然言語処理の構築に進んでいいものかどうか疑問に感じている。