2013年6月22日土曜日

ビッグデータとサンプリングデータ:『ワールドカップアジア最終予選 日本×オーストラリア』での比較調査

 「ビッグデータ」という言葉は世間に定着してきていると言っていいでしょう。バズワードと呼ぶかどうかはここでは言及しませんし、重要ではありません。
 その一方、統計との関係性から、「ビッグデータありき」という姿勢に疑問を呈している記事もあります。

そこで、自然言語処理(というか文字列検索)での「全数データ」と「サンプリングデータ」の結果を比較して、どのような違いが出てくるかを調査してみました。

対象データとして次を見つけたので、これを全数データと見なします。
(最新の試合でないのが残念ですがご容赦ください)
サンプリングデータは過去と同様にTwitterAPIのストリーミングデータ(全Tweetの1%)を使います。
集計期間および検索条件は、元記事に記載されているものを原則そのまま使用します。(#fjaという記載がありますが、これは#jfaのタイポと思われるので、これだけは「#jfa」を使用)
細部については元記事を参照して下さい。

結果を以下に掲載します



1.出場した全14選手の名字検索でのランキング
 ほとんど同じですが、本調査では5位の長友と8位の内田がより上位になる結果となりました。
 (下記表は元記事の順位のままに、投稿件数のみを本調査のものを記載しました)


2.本田選手、香川選手、川島選手の投稿数推移
 元記事同様、本田選手のみ右側の目盛りを参照してください。
 本調査では18時~19時台で多めの数値が出ていますが、それ以降は同じ傾向が確認できます。


3.オーストラリア戦での投稿数の推移
 同じ傾向が見られます。

4.松木氏、ゴン中山氏、セルジオ越後氏の投稿数グラフ
 同じ傾向が見られます。(ゴン中山が多めに取られてる?)

5.松木氏の投稿数推移グラフ
 全体の傾向(ピーク位置)が同じことが確認できます。


6.「渋谷」「道頓堀」の投稿数推移
 渋谷のピーク位置がずれましたが、全体の傾向はほぼとれています。



元記事で示したかった情報とほとんど同様の結果がサンプリングデータでも示すことができたと思いますがいかがでしょうか。

「定性的な傾向はサンプリングデータ(今回は1%)でもほぼ取得できる。ただし、精度的には劣る場合がある」と言うことを認識した上で使用するのであれば、十分役に立つのではないでしょうか。


(2013/6/26)タイトルを変更しました