2014年11月29日土曜日

Twitter分析:インフルエンザ2014-2015

 先日インフルエンザの流行が例年より早く始まったという報道を目にしました

 TwitterのTweet数の変化から、これを確認してみます。
  • 期間:2010年8月1日から2014年11月28日まで(諸原因による欠落あり)
  • 対象:TwitterStreamingAPI で取得できたTweet(全体の約1%)のうち日本語文
  • 抽出:「インフルエンザ」を含む文(「鳥インフルエンザ」を含む文は除外)
  • 1日単位のデータを2つのパターンでグラフ化
    • 出現頻度=「インフルエンザ」を含む文の数
    • 出現率 =出現率/日本語文の数

■出現頻度
クリックで拡大

 毎年明らかなピークができているのがわかります。
 昨年までの傾向をさらに見ると、11月の終わりに小さな山ができて、2月始めに大きな山が来ています。

 11月終わりの山はインフルエンザ予防接種関係のつぶやきによるもので、2月の山がインフルエンザのピークだと考えられます。

 次の資料と比較して、ほぼピークが一致していることが見て取れます。


 さて、例年に比較して今年のTweet数の変化から、今後のインフルエンザの流行の傾向を判断できるでしょうか?

 11月27日、28日にバーストが見られますが、これはむしろ前述の報道を受けてのツイートが多く、「インフルエンザにかかった」というようなTweetとは異なり、患者数と直接的に結びつくものではありません。
 11月26日以前に小規模な山ができてますが、これは例年の予防接種関連のものと判断できます。

 したがって、11月26日までの「インフルエンザ」Tweet数からは、流行が早く始まったことを判断することはできませんでした。

 では、今後、大流行になるか、例年並みなのかを判断する方法はあるでしょうか?

 流行が早く始まった=患者総数が多くなる、ということを示唆しています。
 一方、この報道が社会にフィードバックされた結果、対策を取る人が増えて患者数が抑制される可能性もあります。

 以上から、今後のTweet数に対して、次のような判断が可能ではないかと考えています。
  • 今回のバーストが一時的なもので1月に向けて減少に転ずる → 例年と同等
  • このまま増加する → 大流行 or ピーク前倒し
この仮説についての検証は行うつもりですが、報告できるかどうかは未定です。
 (個人的事情の見通しが立たないので…



■出現率

 上記の出現頻度による分析で、「インフルエンザ」に関する分析は終わっています。
 ところが、ここで一つ問題があります。「出現頻度でいいのか」ということです。

 TwitterStreamingAPI で取得できたTweet(全体の約1%)のうち日本語文の数は、明らかに大幅に増加しているのです。
  • 2010年10月:約 150,000 ツイート/日
  • 2014年11月:約 850,000 ツイート/日
そこで、試しに出現率=出現頻度/総数でグラフ化すると、次のようになってしまいます。

クリックで拡大

 2月のピーク位置は一致しますが、毎年のピーク量が実際の流行状況から外れています。
 つまり、出現頻度のままの方が、現実との相関が高いのです。

 どうやら、「インフルエンザ」に関しては、出現頻度で見た方が良さそうです。

 Tweet総数が増えれば、「インフルエンザ」Tweetもそれに比例して増えそうなのですが、なぜそうなってないのでしょうか?

 原因としていくつかの仮説が立てられます。
  • 各人の興味の多様化
  • 個人情報や故人の徳的に関わる可能性のあることをTweetしなくなった
  • スパムの増加
  • (その他)
しかし、「インフルエンザ」だけでこの仮説を裏付けすることはできません。
 今後、他のデータの分析も含めての宿題とさせてください。



■参考ページ(インフルエンザ関連)

インフルエンザ対策特集