2015年1月29日木曜日

実験補足:「注目のツイート」抽出

1月25日から「注目のツイート」の抽出実験の結果を公開しています。
方針などは次の通りです。
  • TwitterStreamingAPIを使用
    • 何らかの障害によって、十分な数のツイートを収集できなかった日は、公開しない
  • 対象日および過去に発言された日本語ツイート(ひらがなorカタカナが含まれるツイート)が対象
  • 対象日の0:00:00から23:59:59までの間に注目されたと推定されるツイートを抽出
  • 評価関数を用いて順位付けする
    • スパムツイートは除外する
    • 高々50件までを出力(ツイートが削除されていた場合などはその分だけ少ない)
    • 人手による調整は行わない(故に、パクツイなどが出力されることもあるかもしれない)
    • 具体的な評価関数/処理は非公開
  • 評価関数は適宜調整する
    • スパムツイートは状況が変化するので都度調整する
    • 現状、フォロワーの多い人のツイートが有利(?)
    • 調整日および調整したかどうかは非公開

※本実験によって得られた結果は、ツイートの内容について何らかの優劣を判断するものではありません。