「雑談」でさえ、話が噛み合わない人の思考メカニズム (2014/11/28)
この記事は「人間」の話ですが、「機械」でも同じことがいえるのではないかと思い至りました。
つまり、現在の「機械」による解析は単語を対象としたものがほとんどで、文・文書を扱っていたとしても、単語の集合あるいは統計情報としてであり、文の意味を理解などはしていません。
その先に進むためには、「人間」のみならず「機械」でも文(Sentence)の理解が必要となっていくと考えるのは当然の流れに思えます。
文(文書)間の意味的関係がわかれば、上記の記事の問題は解決できそうです。
word2vec では、単語をベクトル表現し、単語間の関係性を表していますから、これを拡張して、文や文書に適用できないでしょうか?…
…などと考えていたところ、すでにMikolov氏らによる論文がありました。
-
Distributed Representations of Sentences and Documents
この論文では、ParagraphVectorの作成方法、および、他の手法との比較を行っています。明示されてはいませんが、「word2vec」からの類推で「paragraph2vec」に相当する手法のようです。ただし、該当するプログラムは公開されていないようです。
他の方が、この論文を参考に実装していました。
いくらか処理を簡略化?しているみたいです。
- sentence2vec : Tools for mapping a sentence with arbitrary length to vector space
- models.doc2vec – Deep learning with paragraph2vec
- Python (gensim)
関連情報
- word2vec の次は、Paragraph2vec... (2014/09/06)
- sentence2vec 動かした (2014/09/08)
- 光の早さでsentence2vec使ってみた。 (2014/09/09)
- word2vecの後にparagraph2vecが出てきたりしていますが... (2014/11/12)
今日のメモ:気になった論文
- Neural Word Embedding as Implicit Matrix Factorization
- 「word2vecとPMIが等価」(2014/10/08, Kazuma Hashimoto (橋本和真))
- Learning with Recursive Perceptual Representations
- SVMで深層学習?