[2010年10月における休日(土曜日、日曜日、祝日)と平日の日本語Tweet数の比較]
自然言語処理を行うにあたって、現在は大量のコーパスを利用することが多くなってきた。
インターネットが普及するにつれて、各ホームページ(およびその下位のウェブページ)、その次には、ブログデータの収集が主流だった。
ここ最近は、急速にユーザが増えているTwitterということになる。
ある調査では、日本語は英語に次いでTweet数が多いらしい。
Twitterのデータを使う利点は、その量とともに、即時性(リアルタイム性)にある。
最近では、Twitterデータを利用した様々なサイトやアプリが存在する。
この状況の中で、あえてTwitterと自然言語処理を結びつけて何かやるかどうかはもう少し考える必要がある。
しかし、いずれにせよ、状況分析くらいは行わないことには、お話にならない。
今回は、一般的な(突発事象のおこらない)状況において、時系列としてTweet数にどのような変動があるかについて、傾向を見てみた。
冒頭のグラフは、2010年10月における休日(土曜日、日曜日、祝日)と平日の日本語Tweet数の比較である。(次の収集条件で、ざっくりと傾向を見た)
- TwitterStreamingAPIによって収集。(全Tweetの約1%が流れてくる)
- 時間は日本時間の0時から24時に変換してある。(オリジナルはUTC)
- Tweet数は10分単位で集計。
- ひらがなかカタカナが含まれる文を日本語のTweetと判定。UserIDはみていない。
- 1ヶ月分のデータから、通信障害やシステム障害(受信側、Twitter側含む)による明らかな異常値を排除。
- それ以外の恣意的な操作は行わず。(Tweet内容はみていない)
時間表示が見づらいが、6時~18時に有意な違いがみられる。
休日は、朝から夜にかけて緩やかな上昇になっているのに対して、
平日には、8時(おそらく起床~通勤時)と13時(昼休み)にピークが出ている。
おそらくは、勤務時にはつぶやくことができないサラリーマンが、これに該当しているのだろう。
このグラフを見ての第一印象は
「日本人まじめじゃん」
というもの。サラリーマンの皆さんは仕事に集中している様子。(学生とか主婦とか、自宅警備員?の人たちもいるので、Tweet数がゼロになることはない。もちろん、その比率は不明なので、正確なところはわからないが。)さて、これに自然言語処理を施すことで、どのように有意な構造を抽出していくかが悩みどころ