2010年12月6日月曜日

Twitter分析:2010年ワールドカップ(カメルーン戦)での日本語Tweet状況

2010年6月14日、日本-カメルーン戦、日本時間23:00キックオフ、1-0で勝利

[1)2010年ワールドカップ(日本-カメルーン戦)での日本語Tweet数

[2)個人名でのTweet数(時間幅に注意)
岡田
川口、楢崎、川島、中澤、闘莉王、駒野、岩政、今野、長友、内田、中村、俊輔、稲本、遠藤、憲剛、松井、阿部、長谷部、本田、玉田、大久保、矢野、岡崎、森本

※Tweet総数が、これまでの報告に比べて多いのは、2010年7月中旬までは、Twitter Streaming API で全Tweetの5%を取得できていたため。(現在は全Tweetの約1%)
※試合時間の関係で、グラフ表示は、時間をずらしてあるので注意
※その他の収集条件は、「Twitterにおける日本語投稿の一傾向分析」と同じ。

 グラフ1からは、キックオフ前から徐々に盛り上がっていっているのが見て取れる。最大時(試合終了時=勝利確定時)には、通常(2010年6月平均)の同時刻の3倍を超えるTweetが起こっている。これは、Tweet数の通常時との乖離具合から何らかのイベントの発生を推測できる可能性を示唆していると考えられる。これは、前回報告の「Twitter分析:地震発生時(2010年11月30日)におけるTweet状況」からも読み取ることができる。
 一方、人名(日本代表メンバー)を含むTweetの数も出してみたが、地震発生時の関連語彙の出現数に比べると意外なほど少ない。グラフ1では見づらいので、グラフ2として拡大してみた。時間幅も試合時間を中心とした6時間分だけにしてある。
 人名の頻度差から、そのときの試合状態を想像することができる。しかし、それが全体のTweet数と必ずしも同期していない、それどころか、全体数への影響も少なく、ほとんど無関係なのに驚いた。たとえば、本田のゴールの際に「本田」を含むのは、その時点の一割未満にすぎない。(「本田」で収集したので「本田△」なども含まれる)

 では、ほとんどのTweetは何かというと、ほとんど雑談的な内容。「意外と前半いい感じ。」「この時間にそれは辛い…」など。試合終了後は「勝ったー」「すげぃ〜!!勝利〜!!!!」などのシャウト系のTweetが多くみられた。

 統計処理的な立場でTweet数からイベントの発生をとらえて、さらに自然言語処理的解析で何が起こったのかを絞り込むことを考えたい。そのために、今回は固有名詞として、人名を利用してみた。しかし、実際には、Tweet内容は意味的にはほとんどカオス状態である。この混沌から、何かを導き出すためには、もっと工夫が必要である。

※オランダ戦、デンマーク戦、パラグアイ戦にも同様の分析を行います。明日以降、更新予定。