2014年12月19日金曜日

特異値分解(SVD)参考リンク集

特異値分解(SVD)参考リンク集です。

ある程度の規模のデータを統計処理しようとすると、何らかの形で特異値分解が必要になってきます。

以下に、特異値分解関連での参考リンクをまとめておきます。

特異値分解とは

ライブラリ

言語/ツール系

 それぞれ、行列操作およびsvd関数が含まれています。
 手軽に動作を試したい場合には、これらが便利かもしれません。

2014年12月11日木曜日

クローズアップ現代「広がる“読書ゼロ” ~日本人に何が~」(2014/12/10)をみて思ったこと

昨日(2014/12/10)のクローズアップ現代「広がる“読書ゼロ” ~日本人に何が~」をみました。

前半は、筑波大学の教授による学生に対する実験の映像が流れました。

読書量の多い学生と少ない学生を合わせて4名に小論文の課題を出します。

まず全員がインターネットでの検索から始めます。

その後、読書量の少ない学生は最後までインターネットの検索にたより、その結果、大部分をコピペ・引用で、自分の意見は2~数行。しかも引用した内容とのつながりが希薄あるいは皆無であり、さらに独自の視点に立ったものがありません。

一方、読書量の多い学生は、途中で図書館から本を探してきて、その中から独自の視点を見いだし、それに基づいた論文を組み立てることができていました。

また、インターネットを検索するときの目の動きから、一つの検索結果が有効かどうかを判断する時間も1秒以内ということも分かりました。

後半は、立花隆氏をスタジオに迎えて、この問題について話し合われました。

タイトルと、前半の実験から、NHKが主張あるいは誘導したい方向性が見えてきます。
どこから突っ込んだものやら、と思っていたのですが、立花隆氏が的確に切り込んでくれました。
抜粋します。(うろ覚え)
  • インターネットは、その先にある膨大な全人類の知識に到達することができるものでありすばらしいものである
  • 論文を書けるかどうかと言うのは、その知識を使ってどうするのかということであり、インターネットの検索だからどうこうということではない。
  • これまで、新聞を読んでいるときでも、見出しを見てその記事を読むかどうかを判断するのは1秒くらいであったはずである。インターネットの検索だからというのはおかしい。
  • 読書によって得られるのは「知(知識)」「情(感情)」「意(意志/意思)」というものがある。「知」以外の部分にも目を向けるべきである。
  • 読書は重要である。「情」や「意」を読み取り、自身の指針とすることができる。

これまで立花隆氏に対してはよい印象を持っていなかったのですが、(NHKの思惑に反して?)まっとうな突っ込みを入れていたのを見て、考えを改めることになりました。

番組では、インターネットの検索がダメで紙の本がいいというように誘導したかったのかもしれませんが、立花隆氏のおかげで、見事に失敗しています。


さらに、2点ほど突っ込んでおきます。
  • インターネット検索ではダメで本を読まないと正しい知識が得られないか?
    • IT系の業務をしてきた立場からすると、これはむしろ逆で、最新の知識/情報を得るためにはインターネットを使うべきであり、使わざるを得ません。本になっているような情報は古くて役に立たない場合が多くあります。
  • 実験映像では、一番読書量が多い男性学生が図書館に向かい、『検索結果の記事で参考文献になっていた本と、たまたま目にした本を持ってきました』とナレーションが入っていました。そして、たまたま目にした本の中の文章から独自の視点を構築していったと続けています。
    • しかし、インターネット検索するときにも同じようなことをしているのではないでしょうか?
      検索結果を見たときに、関連記事を見たり、その記事中に出てきた別の表現で再検索したり、あるいは著者の論文一覧を見たり、さらに共著者の論文を見たり…
      そういった中で、最初考えていたものよりもさらに良いものを見つけることは少なくありません。
      つまり、よりよい情報にたどり着くかどうかはインターネットも本も関係ない話です。

ここまで書いて気がついたのですが、そもそも冒頭の実験を提示することによって、“読書ゼロ”であることの問題点が見えなくなってしまったのではないでしょうか…

2014年12月8日月曜日

単語から文へ…:paragraph2vec関連まとめ

次のような記事を見つけました

「雑談」でさえ、話が噛み合わない人の思考メカニズム (2014/11/28)

この記事は「人間」の話ですが、「機械」でも同じことがいえるのではないかと思い至りました。

つまり、現在の「機械」による解析は単語を対象としたものがほとんどで、文・文書を扱っていたとしても、単語の集合あるいは統計情報としてであり、文の意味を理解などはしていません。

その先に進むためには、「人間」のみならず「機械」でも文(Sentence)の理解が必要となっていくと考えるのは当然の流れに思えます。


文(文書)間の意味的関係がわかれば、上記の記事の問題は解決できそうです。
word2vec では、単語をベクトル表現し、単語間の関係性を表していますから、これを拡張して、文や文書に適用できないでしょうか?…


…などと考えていたところ、すでにMikolov氏らによる論文がありました。
  • Distributed Representations of Sentences and Documents
    • pdf1, pdf2
    • Quoc V. Le, Tomas Mikolov
    • 2014/05/22

この論文では、ParagraphVectorの作成方法、および、他の手法との比較を行っています。明示されてはいませんが、「word2vec」からの類推で「paragraph2vec」に相当する手法のようです。ただし、該当するプログラムは公開されていないようです。


他の方が、この論文を参考に実装していました。
いくらか処理を簡略化?しているみたいです。

関連情報



今日のメモ:気になった論文

2014年12月6日土曜日

word2vec関連まとめ

いまさらの word2vec 参考リンク集です。

Mikolov論文


日本語による解説等


コード


実際に動かしてみた方々


書籍


修正履歴
[2014/12/07] "実際に動かしてみた方々" にリンク追加