2010年11月28日日曜日

追記(Twitterにおける日本語投稿の一傾向分析)

昨日の記事『Twitterにおける日本語投稿の一傾向分析』の補足

追記1
午前4時にその前後に比べて突出したつぶやきが数が発生している。
これは、次の記事によると午前4時につぶやくサービスがあるらしい。
グラフ化することで、そのサービスによるつぶやき群が特異点になっているのが見えてきた。
ただし、類似のサービスやボットは他にもあるので、特に排除の対象とは考えない。

追記2
上記のように、あるデータが特異な状況であると判断できるということは、基準値からの乖離具合から何らかのイベントの発生を判断することも可能だろうと推測できる。
例えば「バルス」とか「本田△」とかのつぶやき頻度をイベント発生ととらえると言うことである。
しかし、残念ながらデータがない…

と思ったのだが、今日の「龍馬伝 最終回」関連のつぶやきがかなり盛り上がったらしい。もしかしたら、なにか抽出できるかもしれない。これについては、後日分析して、なにか有意な結果が見られるようなら報告予定。

追記3
この分析は、除外した(日本語でないと判定した)データの影響をうけないことを前提としている。
他のtweetあるいはtwitterシステム的に影響があるのかどうかの確認は取れていない。

追記4
収集にはTwitterStreamingAPIを使用
現時点では、BASIC認証で使えるので、Twitterのアカウントさえあれば収集は誰でもできる。
使用に際しては、以下のサイトの情報を参考にした。