1月25日から「注目のツイート」の抽出実験の結果を公開しています。
方針などは次の通りです。
方針などは次の通りです。
- TwitterStreamingAPIを使用
- 何らかの障害によって、十分な数のツイートを収集できなかった日は、公開しない
- 対象日および過去に発言された日本語ツイート(ひらがなorカタカナが含まれるツイート)が対象
- 対象日の0:00:00から23:59:59までの間に注目されたと推定されるツイートを抽出
- 評価関数を用いて順位付けする
- スパムツイートは除外する
- 高々50件までを出力(ツイートが削除されていた場合などはその分だけ少ない)
- 人手による調整は行わない(故に、パクツイなどが出力されることもあるかもしれない)
- 具体的な評価関数/処理は非公開
- 評価関数は適宜調整する
- スパムツイートは状況が変化するので都度調整する
- 現状、フォロワーの多い人のツイートが有利(?)
- 調整日および調整したかどうかは非公開
※本実験によって得られた結果は、ツイートの内容について何らかの優劣を判断するものではありません。