自然言語処理で食っていけるか: 2011

2011年3月3日木曜日

言語処理学会の論文誌「自然言語処理」がオンライン公開されていました

言語処理学会の論文誌「自然言語処理」がオンライン公開されていました。
（「はてなブックマーク > 人気エントリー」で見つけました。）

・自然言語処理：Journal@rchive（言語処理学会）

現在、1994年から2008年までの論文が公開されています。もちろん無料です。
残念ながら、最新の論文は読めないようですが、タイトルだけは自然言語処理学会のサイトでみることはできます。

こういうサービスは非常に助かります。

他にも、無料で論文を公開している自然言語処理関連の学会としては、次のようなものがあります。
・人工知能学会論文誌（人工知能学会）
・知能と情報（日本知能情報ファジィ学会）

一方、会員のみ（もしくは有料で）参照・ダウンロードできる学会もあります。
・情報処理学会電子図書館オンデマンドサービス（情報処理学会）

最新の論文誌を即時公開するのは難しいでしょうし、また、それぞれの事情があるのでしょうが、過去の論文だけでも無料で公開してもらえると助かります。

（備考）

[2014/11/21]　人工知能学会誌　のリンク先修正

2011年3月2日水曜日

「第10回データマイニング+WEB 勉強会＠東京」のまとめのまとめ

先週の日曜日(2/27)に

第10回データマイニング+WEB 勉強会＠東京　( #TokyoWebmining 10th) －1st Week－広告ネットワーク・グラフ解析・並列機械学習祭り－

が行われたようです。Twitterに流れてきた情報で知りました。
ustreamでも流れていたらしいですが、結局みられませんでした。

Twitter でタグ検索（#TokyoWebMining）して、関連情報を収集しました。
大量データの視覚化ツール関連が興味深かったです。

とりあえず、覚え書きとしてまとめておきます。
興味のあるものを中心に選別したので、漏れは多々あると思います。

【まとめページ】

■（hamadakoichi blog）

http://d.hatena.ne.jp/hamadakoichi/20110227/p1

■（nokunoの日記）

http://d.hatena.ne.jp/nokuno/20110227/1298802737

【視覚化ツール】

■Cytoscope

特徴:

LGPL (オープンソース）
多様なファイル形式への対応
インタラクティブな操作性
igraph - R（グラフ解析ライブラリ）の豊富なパッケージ群との連携

・公式サイト（英語）　　　→　Web上でのデモ
・Cytoscapeの日本語情報サイト　　　→　Cytoscape + R + igraph
・日本Cytoscapeユーザーグループ（Googleグループ）

■igraph: Network analysis and visualization
■The Open Graph Viz Platform
■Graphviz
■JavaScript InfoVis Toolkit
■Pajek
■Protovis

2011年2月24日木曜日

SymbolistからConnectionistへ

Connectionist（コネクショニスト）とSymbolist（シンボリスト）という構図を考えた場合に、自分はSymbolistという立場をずっととってきていたが、最近は、次第にConnectionist的な考えになってきている。

（先日の記事にもそれが現れてきている）

ざっくりといえば、統計処理なのか、論理処理なのかという違いとみることができる。（異論はあるでしょうが…）

すべでの単語を取り出して、それらの関係を明確にして、同義関係・類義関係・階層関係などを定義して、それらを操作するルールを定義することで、その文・文章を理解することができると考えてきていた。

しかし、それがなかなかうまくいかない。

例をあげてみよう。「警察の犬」と言った場合に、どういう意味を持つだろうか。

警察犬？それとも、警察の手下といったような意味？

それは、その会話の中における、いわゆる文脈に依存するのだろう。

同様に単語の区切り位置も文脈によって変わってくることがある。

すべての文脈を抜き出して、それらをルール化すればいいのだろうか？

人間がその文を理解するときに、そんなに膨大なルールを参照しているというようなことがあるのだろうか。少なくとも自分にはその自覚はない。

大まかなイメージとしては、ある単語（あるいは概念）ノードが発火しており、会話によって、信号が別の単語（概念）に伝達し、意味をそのネットワーク全体が意味を構成しているというような印象を持っている。

まさに、Connectionist的な考え方だろうか。

そこで、コーパスから共起関係を抜き出して、それによって信号の伝達経路を定義し、簡単な実験を行ってみた。想像できるとおり、こんな簡単な仕組みでは、簡単な例ではそれなりの結果は出てくるが、ちょっと複雑な例ではうまくいかない。

実は、ここに罠があって、形態素解析を使って、共起関係を作成している。

形態素が確定してしまった段階で、自由度がある程度制限されているのだろう。

必ずしも、人間と同じ仕組みを構築する必要があるとは思わないが、ある程度は参考にした方がいいのかもしれない。

今後も、さらに考察していきたい。

2011年2月22日火曜日

プロジェクト0.1進行中：愚痴

やはり、恐れていたとおり、”あれ”をやれと言うことになってしまいました。＞＜
もはや、自然言語処理はどこかに行ってしまったようです。
ということで、先週から今週にかけて、統計処理関連のコーディングに追われています。

実作業に入ってしまったので、詳細は述べられませんが、過去のブログに出ていますね。（笑）

しかし、あちらは何年もかかってやり遂げたものを、きわめて限られた期間で実現しろとか、無茶を言われても…「実現可能性の検証」と言うレベルで話をつけていますが、この約束が守られるかどうかは、”その時”にならないとわからないという、相変わらずの状況です。

すみません。今日は愚痴でした。

2011年2月20日日曜日

形態素解析処理は必要か

最近よく考えているのは、形態素解析というのは実は不要なのではないか、と言うこと。

現在の「形態素解析処理」は、『形態素』あるいは『単語』という単位を決めて、それに『品詞』なるタグを振っている。それら『形態素』や『品詞』は、人間の都合で決めたものである。
しかし、これは必要だろうか。

実は人間が文字を書いたり会話したりするときにそれを意識しているわけではない。
その一方で、これまでの『自然言語処理』研究の流れの中では、当然のごとく必要とされてきている。

現在、ほとんどの自然言語処理システムの根幹にあるのが、『形態素解析処理』である。
この仕組み自体は、枯れた技術となってきており、フリーのプログラムも出回っているし、自然言語処理を全面に出している企業なら、容易に自社開発できるレベルである。（学生ですら自作できるだろう。）

しかし、問題になるのは『形態素』である。既存の単語については追加すれば対応可能であるが、新語が出てきた場合には、なかなかむつかしい。わかり易い例は、たとえば、外国人の名前だろうか。
また、その単位にも異論がある。（「横浜市／役所」なのか「横浜／市役所」なのかなど、多数の例があるが、厳密に書こうとするときりがないので割愛）

形態素解析の辞書をひたすらメンテナンスするというのも一つの方法であるが、”今”の言葉に追いつくことはできない。可能ならば、自動的に、新語や適切な単位を認識して欲しいところである。

ある人は言う。「人間には出来ているじゃないか。その仕組みを機械に組み込めばいいじゃないか」と。人間がどのように理解しているかすら判明していないことを彼は知らない。

ひたすら、形態素を追加するというのは、非現実的である。それを自動化できるくらいなら、最初からシステムに組み込めば良いわけで、そう言うわけにもいかない。

人間は、形態素あるいはそれに類する単位を認識しているのは間違いないように見える。
従って、形態素が不要だと考えているわけではない。

しかし、現在の”形態素解析システム”を前提とした仕組みで、自然言語処理の構築に進んでいいものかどうか疑問に感じている。

2011年2月15日火曜日

DDNSが期限切れで停止されてしまいました

自宅のサーバにアクセスするために、固定IPが割り振られないプロバイダだったので、フリーのDDNS（ダイナミックDNS）を利用していたんですが、会社側からそのドメイン名へのアクセスを制限されてしまいまして、その結果、放置状態にしていたら「your domain has expired」というメールが届いてしまいましたorz

実はかなり前に取得しておいたドメインで、「.com」だったんですが、もうそのサービスでは「.com」は有料化されていて、継続使用している故に無料で使えていたという状況だったので、もう一度取得するには、定額の支払いが必要になってしまいます。

まあ、自分の責任なので仕方ないんですが、ちょっともったいない気がしました。

2011年2月12日土曜日

プロジェクト0.2かと思っていたけど、プロジェクト0.1かもしれない件

さて、プロジェクトはますます混迷の度を増してきている。

本来の方向性（ある明確な名前がついてる）が次第に薄れていき、

「クローズアップ現代」（飛び出せ！“異能”～日本の閉塞感を打ち破れ～）

に触発（？）されて、その中で言及されていた株価予測に取って代わろうとしている。
本来の目的はそっちのけ状態でだ。

一社員の身としては、それに対してどうこう言える立場に無いのがすごく悲しい。

その一方で、非常にチャレンジングなテーマであり、やりがいがあるということはいえるだろう。
…ある程度の時間さえ与えられていれば…

問題は、それだけではない。
何を勘違いしているのか、上層部(経営陣)が営業の人物に、本件の真偽を相談していた。びっくりした。
返ってくる答えが否定的であるのは自明であろう。
「具体的な方法論について言及していないので、信用できない」といっているらしい。

おお！全く何も理解していないことを暴露しているではないか。
ある程度のスキルを持った技術の人間が見れば、方法論はある程度想像できる。何を伏せているのかすら想像できるだろう。
それに、具体的な方法論は企業秘密なのでしゃべるわけはないではないか！

その他いくつかの点を指摘して、実現不可能と豪語しているらしい。
何も理解出来ていないことを自ら暴露しているのがわからないのだろう。

聞いた話だが、某社では、既に世の中に広く知られていたアルゴリズムであっても、それが、何かに採用されていることについて口にすることが許されないそうだ。（もちろん、具体的に何のことかは教えてもらえなかった）

技術とはそうしたものなんです。営業さんにはそれがわからんのです。

経営陣も大きな勘違いをしている。
これ（株価予測）は製品開発の話ではなくて、研究の話なのに。
さらにそれを短期間で製品化するということを考えてる時点で勘違い。

このプロジェクト、この先どうなっていくのかと…嘆息

2011年2月5日土曜日

プロジェクト0.2？を体感中

現在、あるプロジェクトに所属して、関連情報のサーベイやデモ用プログラムの作成を担当している。
直属の上司とは綿密な打ち合わせに基づいて実施しているのだが、そのさらに上の上司な人にレビューするたびに言うことが変わってくる。
あっちにふらふら、こっちにふらふら、狙いが定まらない。

最初は、「簡単なツールでいいから」「製品で出して反応見て改良しよう」という話だった。

にもかかわらず、毎週のように機能追加が発生する。

単純ダイアログプログラム
↓
タブ付きダイアログ
↓
子ダイアログが開く
↓
小ダイアログもタブ付きに
↓
ダイアログ2つも必要か？→ひとつにまとめろ

これだけ見ると、プログラム作成の手間がかかるだけに見えるかもしれないけど、内部計算手法（理論や計算式）の変更やら、表示そのもの（リストにするか／グラフにするか）の変更やら、色々と注文がやってくるのでたまらない。
無駄なコードは発生するし、超スパゲッティ状態だし、当然ドキュメントなんか書く暇はないので、誰かにちょっとヘルプを頼めるわけもないという状態。というわけで、いつの間にやら実質一人で作業している。

そして、ここに来て、先日（2011/1/24）の「クローズアップ現代」（飛び出せ！“異能”～日本の閉塞感を打ち破れ～）の話に触発されて、株の予測ができないかとか言い出す始末！

いやいや、そんなに簡単にできるものなら、誰かがとっくに作ってだろうが。（過去に大量の類似研究があるものの、さほど成功してない。）そんなに簡単にいかないから、「クローズアップ現代」での内山氏の報告が注目された訳なのに、何言ってんだか。

というか、それ以前に、このアプリと方向性ぜんぜん違うでしょうが、統合する意味ないし。

と思って、軽くいなしておいたら、今度はこれに反応してきた。

インターネット上の大量な情報を分析・整理し信頼性判断を支援する技術を開発(NEC)

いやー、トレンドへの反応早いっすねー。
じゃなくて、こんな事やってたらきりないでしょ。最初の構想とかけ離れすぎてるし、注目されてるものに目を奪われすぎ。
類似の研究はみんなやってるから、それが発表されるたびに対応してたら、いつまでたっても仕様が固まらないんですけど。

目的と方向性を明確にして、まず製品を作らないといけないんじゃないんでしょうかねえ。

そのあとで必要な拡張をする機会はあるかもしれないし、時間さえ（数年？）くれれば、株価予測の研究はやるから。予測ができるかどうかは知らないけど :-P

2011年2月2日水曜日

Twitter分析：2011年アジアカップ（決勝戦）での「松木」Tweet状況

2011年1月29日、日本－オーストラリア戦、日本時間24:00キックオフ、1-0で勝利

［2011年アジアカップ（日本－韓国戦）での日本語Tweet数：22:00-05:00］

※収集条件は、「Twitterにおける日本語投稿の一傾向分析」と同じ。

厳しい試合でしたが辛勝しました。日本代表の皆さんおめでとうございます。
・日本が延長戦で豪州を下し、４度目のアジア制覇（スポーツナビ）

さて、その裏で次のような記事が出ていました。
・解説・松木安太郎に関するツイートが１試合１万５千件（サポティスタ）

主要メンバーに「松木」を加えたTweet数のグラフが上記になります。
TwitterStreamingAPIでは、全体の1%程度しか取得できないので、Tweet数は相対的な比較で見てください。

グラフではわかりにくいので、各人ごとのTweet総数を出してみました。

川島	1788
李	942
長友	914
松木	851
本田	764
岡崎	588
ザック	557
内田	374
藤本	343
香川	323
前田	310
遠藤	308
長谷部	272
ザッケローニ	258
吉田	249
名波	210
今野	175
岩政	149

取得できるTweetが全体の1%なので、10～20件程度は誤差の範囲ととらえることができます。
状況によっては、100件くらいの誤差があるかもしれません。
それでも「松木」のTweetが多いのが明確です。人気ありすぎです。

※TwitterStreamingAPIではその時間の全Tweet数の約1%をストリーミングします。
　ここでは、その中から日本語Tweetのみを抽出して集計しています。
　平均的な時間帯なら日本語Tweetは18%程度ですが、このときは全Tweetの30%程度を日本語Tweetが占めていました。
　したがって、単純に100倍しても正確なTweet数を得ることはできません。
　あくまでも、相対的な比較のための数値としてみてください。

2011年2月1日火曜日

SVD（特異値分解）計算ライブラリ

今回、別件の情報をサーベイしている中で、こちらのページ（Netflix Prize 外野席）から、SVD (singular value decomposition：特異値分解）の高速アルゴリズムであるSimon Funkのアルゴリズムを見つけました。
関連する課題も抱えていたので、これ幸いと読んでみました。しかし、プログラムコードとしては公開されておらず、ページ内の解説を理解しようとしても、少し大変な様子なので、Google先生のお世話になりながら関連情報を検索しまくりました。

そして、「redsvd」にたどり着きました。（Simonとは別の手法による実装です）

ここ数年の研究で、高速に近似的な解を求める方法の研究が進んできているようです。

説明を見る限りでは高速に計算できているようです。
近年注目を集めている乱択化アルゴリズム用いているとのこと。

これまでの実装によるSVDモジュールでは、大規模な問題を解こうとすると、どうしても越えられない壁があったのですが、これで解決につながるかもしれません。
修正BSDライセンスというのも助かります。

こういう、実用的なモジュールがフリーで公開してもらえると、本質的なところに注力することができて非常に有益です。

次のページに他のライブラリなどもまとめました
　→　特異値分解（SVD）参考リンク集

2011年1月28日金曜日

Twitter分析：大晦日→元旦にかけての日本と世界

2010年大晦日→元旦にかけての日本語Tweet＆世界Tweet

［2010年大晦日→元旦にかけての日本語Tweet＆世界Tweet］

※日本時間で2010年12月31日9:00～2011年1月1日9:00の間を測定しました。
※赤が世界、青が日本のTweet数で、薄い線が12月1日～12月30日の平均Tweet数です。

※収集条件は、「Twitterにおける日本語投稿の一傾向分析」と同じ。

大晦日に盛り上がるのは、日本人の特性なのでしょうか？
年越しタイミング、いわゆる「あけおめTweet」が半端無いです。
日本語でのTweet数が、世界でのTweet数に直接的に影響を与えているのが見えてきます。

■関連記事
・「あけおめツイート」は約40万件、大晦日は紅白・ガキ使に注目～BIGLOBE調査
・Appleのキーノートどころじゃなかった日本の「明けましておめでとう」―6939ツイート/毎秒の新記録達成
・BIGLOBE、年末年始のツイート動向発表 - 番組別では紅白、ガキ使、箱根駅伝
・Twitterブログ：新年を新しい世界記録と共に迎えて
・あけおめツイートで、日本のユーザーが新記録

2011年1月26日水曜日

Twitter分析：2011年アジアカップ（韓国戦）での日本語Tweet状況

2011年1月25日、日本－韓国戦、日本時間22:20キックオフ、2-2でPK3-0で勝利

［2011年アジアカップ（日本－韓国戦）での日本語Tweet数］

※今回は、人物ごとのTweet数は出していません。

※試合時間の関係で、グラフ表示は、時間をずらしてあるので注意
※収集条件は、「Twitterにおける日本語投稿の一傾向分析」と同じ。

韓国戦と言うこともあって、大変な盛り上がりでした。

基本的なパターンは、『Twitter分析：2010年ワールドカップ（パラグアイ戦）での日本語Tweet状況』のグラフと同じです。
（Tweetの収集数は、TwitterStreamingAPIの仕様変更のため異なります。数的には約1/5になっています。）

ゴールタイミングなどにより、個々のピークの位置は微妙に異なりますが、逆に、Tweet頻度からそれを判断できることが見て取れます。

それにしても、サッカーへの日本人の関心の高さがよくわかります。

■関連記事
・アジア杯日韓戦視聴率３５・１％　関東、瞬間最高４０％超
・サッカー：アジア杯準決勝　日韓延長、決着つかずＰＫ戦
・アジアカップ“日韓戦”の平均視聴率35.1％、瞬間最高視聴率は40.6％
・未来を感じさせる日韓戦韓国代表０－０日本代表

先日（2011/1/24）のクローズアップ現代（ＮＨＫ）を見て

クローズアップ現代 2011年 1月24日(月)放送
飛び出せ！“異能”～日本の閉塞感を打ち破れ～

ホットリンクの内山氏がピックアップされていた。
全世界のブログ情報を解析して、それから株価の変化を導きだそうという発想によって、支援をもらえたという趣旨だった。実際の効果も確認されているんだろう。

はっきり言って、これを聞いたときに、「やられた」と思った。
同様のことは、実は考えたことがあった。
番組中でも、外国で類似の発表がなされていることが報告されていた。
解説では、同じアイデアは同時に3人が思いつくと考えていいので、いかに早く高性能なものを創り上げるかにかかっているということだった。

このホットリンクの話を、会社の同僚にしてみた。
社内でも人工知能的な話についてはかなり話が通じる人で、想いを共感できるかと思っていた人物だった。
彼も、この番組を見ており、話を振ってみたが、返ってきたのは
意外にも「（株価の予測なんて）そんなに簡単にいかないよね」という返事だった。
「それ面白いそうだね」という反応を期待していたのだが、そうではなかった。

彼にして、この反応ということが、日本で『異能』の者が活躍することができない理由を端的に表しているように思う。

すなわち、『異能』あるいは『異質』なものに対しては、まず否定が出てくる。なぜだか皆、うまくいかない理由をさがそうとする。
肯定的とは言わないまでも、ニュートラルな視点から見ることができない。可能性を論じることができない。

たしかに、このアイデアはある意味「ラプラスの悪魔」に近いものかもしれない。
あらゆる情報の中から、必要な相関を取り出して、未来を予測する。
さて、必要な相関を見つけることが、容易にできるだろうか？

株価について言えば、何らかの相関はあるのではないかと思っている。
ある特別なイベント（戦争とか、油田事故とか）との関連は容易に想像できると思うが、ある種の目に見えない法則があるかもしれない。
だが、自分にはまだみつけられていない。

これもまた、「成功するのは続けている人」ということなのかもしれない。

登録: 投稿 (Atom)