WWW2010,Social Network 4セッション.メモを書いて下書きのままにしてあったからせっかくなのでUP.Social network系は情報検索屋,データマイニング屋だけじゃなくて社会学屋さんも参戦していたみたい.そういうのは近年より”村”化しているWWWとしては多様性が出て良いことではなかろうか.
“What is Twitter, a Social Network or a News Media?”
Haewoon Kwak, Changhyun Lee, Hosung Park, Sue Moon
概要
- ありとあらゆるtwitterの統計分析をやってみたという話.調査論文としては引用できそう.
背景と目的
- twitterの利用方法(1): 友達同士のコミュニケーションのために使う
- twitterの利用方法(2):RSS的な一方向の情報収集
- 一体どっちの使われ方をしているのかを調査してみよう
データコレクション
- 41.7Mユーザ
- 106Mつぶやき(スパムは除去)
- 四ヶ月間のつぶやき
以下は統計情報に関するメモの一部
Followする理由:
- 友達関係の構築 or 情報の収集のどちらかと考えられる
- 調べてみると,,,22%のユーザがお互いをフォローし合っている
- この値は他のソーシャルネットワークよりもあ圧倒的に低い(flick 68%)
つぶやきの内容
- 大半のtweetがニュース(80%)
- しかもトピックの大半がニュースのヘッドライン(54.3%)
自分の発言がretweetされるとき平均何パスくらいまで波及するか?
- 96%のretweetが1パスしか波及しない(一回止まり)
- 55%のretweetが一時間以内になされる
感想
- データセットの集め方が「ホットトピックを語を使って検索した結果を収集」という形を取っているので,そりゃデータに偏りが出るでしょ.
- 馴れ合い目的でtwitterをやっている人が少ないという結果が出ているけど日本ではどうなのかな?
- 情報収集ならRSSで留めておいた方が良くないのかなぁ.Twitterを情報活用として利用するとあまりにも情報量が多すぎて…
“Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors”
Takeshi Sakaki, Makoto Okazaki, Yutaka Matsuo
松尾先生の研究室の学生さんの発表.
twitterの一番大きな特性は”超リアルタイム性” .リアルタイムなイベント抽出(時空間分析)をしようという研究.
分析
- 注目しているイベントに関連するキーワードに関するつぶやきをクロール
- 収集したつぶやきをpositive/negativeに分類(個々でいうPositiveというのはイベントとの関連性があるか否かを指しているんだと思われる)
- SVMで学習.
- 素性:単語数,キーワードが出現する位置,…
- Positiveなつぶやきのみトラッキング
- つぶやきの時系列解析: 通常のつぶやき発生確率モデル(これは日々の観測から推定しておく)からつぶやきの傾向が外れたときイベントが発生として認識
- 空間分析: フォローできなかった.
評価に関して
- Positive/Negative分類: 短いつぶやきだとイベントにPositiveなものが多い.へぇー
- 松尾先生のところの研究はこれでもかというくらいに実験をするので圧倒される.これは論文を書くテクニックとして見習いたい.
- 発表にネタが仕込まれすぎていて発表に気合いを感じた
- 地震みたいなイベントを実用的なレベルで抽出しようと思うけどすごい細かい頻度でクロールしないといけないんじゃないのかね?
- 質疑にもあったけど地震が発生したと勘違いしてつぶやいた場合やばいよね.
この記事をtweetする