2010年11月21日日曜日

コーパス収集の必要性を説いてみたが・・・

 昔は、コーパスの作成/収集というと多大な労力と時間を要するものなので、その必要性は理解していても、なかなか手を出すことができない状態だった(らしい)。大学では、いろいろな方法でそれを作成することができたので、あまり気にしたことはなかった。
 インターネットの時代になって、ある程度の規模の文書を収集することが、容易になった。それは、企業にとっては、費用がかからないということであり、研究者にとっては、個人の経験則に頼って作成していた様々な方法論を検証したり、あるいは、それ自身から新しいものを生み出す力を持っている。

 しかし、現実にウェブからコーパス収集しようとすると、コストがゼロというわけにはいかない。それ故に、なかなか手を出そうとしてくれない。

 以前に某社での話だが、形態素解析システムのコスト計算を手計算でやっていたので、コーパスからの学習に切り替えることを提案した。いや、提案しようとした。まずは、直属の上司に相談してみると、「コーパスないでしょ」と一蹴された。いや、だから、収集の必要性があると粘ったが、「まず、今やっている改善をこつこつとやっていこう」と、完全に議論がかみ合っていなかった。
 別の先輩にも相談したが、だいたい似たような話に落ち着いてしまう。

 企業というものは、短期的な成果を追い求めるもので、長期的な成果のために、多大なコストをかけるという選択は市内ものであると痛感した。

 仕方がないので、自分で(自宅で)収集することにした。アクセス量が多いと、プロバイダから文句がくる時代だったので、cronで1時間おきにあるブログのRSS経由で、ブログ本文を収集することにした。
 (余談だが、光どころかADSLでもなくISDNでの通信で、これがほんの数年前の話である。)

 さて、ある程度のコーパスが収集し、分析し、報告した。
 彼らは、特段の反応を示すこともなく、「じゃせっかくだから使ってやろうか、でも、あれとあれが足りないから、それも収集・分析して」と注文をつけてくる始末。

 自然言語処理に限った話ではないだろうが、まじめな人間が報われない状況が存在するということを実感した瞬間だった。

 というか、むしろ、会社に夢を見すぎていたのかもしれない。
 会社は何もしてくれない。だから、自分でやらないといけない。
 やるべきは、「コーパスの収集」を説くことではなくて、コスト削減にどれだけ貢献できるかということだったのだろうと、今となっては考えている。
 そして、そのための様々な過程で得られたノウハウについては、要求されれば公開すればいいし、要求されなければ、自分で抱えていればいいだろう。それが本当に役に立つ知識であるならば、そのノウハウを持っていることによって、会社内における強みとして生かすことができるだろう。