その一方、統計との関係性から、「ビッグデータありき」という姿勢に疑問を呈している記事もあります。
- ビッグデータは統計学と矛盾する?(ITpro 記者の目)
- “統計の基礎を無視している”Hadoop使いが考えるビッグデータ(TECH.ASCII.jp)
- 【データ分析】『統計学が最強の学問である』西内 啓(マインドマップ的読書感想文)
そこで、自然言語処理(というか文字列検索)での「全数データ」と「サンプリングデータ」の結果を比較して、どのような違いが出てくるかを調査してみました。
対象データとして次を見つけたので、これを全数データと見なします。
(最新の試合でないのが残念ですがご容赦ください)
- ワールドカップアジア最終予選 日本×オーストラリア"つぶやき数1位だったのは!?(Yahoo!検索スタッフブログ)
- サッカー豪州戦の夜、Twitterを最も盛り上げた男は本田、5位に松木安太郎(InternetWatch)
集計期間および検索条件は、元記事に記載されているものを原則そのまま使用します。(#fjaという記載がありますが、これは#jfaのタイポと思われるので、これだけは「#jfa」を使用)
細部については元記事を参照して下さい。
結果を以下に掲載します
1.出場した全14選手の名字検索でのランキング
ほとんど同じですが、本調査では5位の長友と8位の内田がより上位になる結果となりました。
(下記表は元記事の順位のままに、投稿件数のみを本調査のものを記載しました)
2.本田選手、香川選手、川島選手の投稿数推移
元記事同様、本田選手のみ右側の目盛りを参照してください。
本調査では18時~19時台で多めの数値が出ていますが、それ以降は同じ傾向が確認できます。
同じ傾向が見られます。
4.松木氏、ゴン中山氏、セルジオ越後氏の投稿数グラフ
同じ傾向が見られます。(ゴン中山が多めに取られてる?)
5.松木氏の投稿数推移グラフ
全体の傾向(ピーク位置)が同じことが確認できます。
6.「渋谷」「道頓堀」の投稿数推移
渋谷のピーク位置がずれましたが、全体の傾向はほぼとれています。
元記事で示したかった情報とほとんど同様の結果がサンプリングデータでも示すことができたと思いますがいかがでしょうか。
「定性的な傾向はサンプリングデータ(今回は1%)でもほぼ取得できる。ただし、精度的には劣る場合がある」と言うことを認識した上で使用するのであれば、十分役に立つのではないでしょうか。
(2013/6/26)タイトルを変更しました