Category Archives: 研究

WWW2010メモ: TEXT MINING session

0
Filed under 研究

WWW2010,1日目の第2セッションはtext miningに決定.その際のメモ.個人的に興味があったのは二つ目の発表.この発表者はWICOW2010でも発表していたんだが,その内容が僕がほんとサーチで実現したかったことをやっていたのでどうしても聞きたかったというわけ.

 

“Cross-Domain Sentiment Classification via Spectral Feature Alignment”
Sinno Jialin Pan (Hong Kong University of Science and Technology), Xiaochuan Ni (Microsoft Research Asia), Jian-Tao Sun (Microsoft Research Asia), Qiang Yang (Hong Kong University of Science and Technology), Zheng Chen (Microsoft Research Asia)

目標

センチメント判定の話.今回の提案では違うドメインで作ったセンチメント学習器を別ドメインのセンチメント判定にうまく活用できるにするというのがメインテーマ.

背景

  • ドメイン毎にセンチメント決定に使われる言葉が違う
  • それゆえ 既存のセンチメント判定にはドメイン毎にセンチメント学習器を作成する必要がある→それは大変な作業

アプローチ
(予想できるアプローチだが)ドメイン間で共通して使用されるセンチメント決定語 (domain-independent features)に着目

  1. domain-independentな語毎の共起度を属性にしてdomain-specificな語を特徴ベクトル化
  2. その特徴ベクトルを使って別ドメイン中に出現するdomain-specificな語をクラスタリング
  3. 同じクラスタにある語は同程度のpolarityを持つセンチメント語となる
    例: electronicsドメインの”blurry”とvideo gameドメインの”boring”は同程度のpolarity
  4. その結果を使って別ドメインのセンチメント学習器を作成

感想

  • ドメイン間でpolarityが近い語を対応させる手法はもっと工夫ができそう

 

“Highlighting Disputed Claims on the Web”
Rob Ennals (Intel Labs Berkeley), Beth Trushkowsky (University of California at Berkeley), John Mark Agosta (Intel Labs Santa Clara)

 

背景: Web上のある情報は全部が全部正しいわけではない.バイアスがかかった情報,主観が入った情報も多い.

目的

  • 閲覧している情報に反証情報があるときに通知するシステムの提案
  • 今回の提案ではブラウザの拡張として実装.
    • ユーザが反証の有無を確かめたいときに使うことを想定したシステム
    • Webページ中のセンテンスを選択すると反証が提示される

課題

  • 反証情報のコーパスの作成(presion, credibilityの問題)
    • 現状1: システムを通してユーザに登録してもらった反証情報を使用
    • 現状2:  SnopesやPolitiFact(Webサイト)から収集
    • 将来的には自然言語処理(ContradicitonDetector*)を上手に使って反証情報を集めたい
  • 反証情報の提示システム(お節介 vs. 有用性)
    • とりあえずは信憑性が高そうなソース(ニュース,新聞サイトetc)から提供されている反証情報を重視したいが…「信憑性高い = 正しい情報」「正しい情報 = 信憑性高い」とは限らないに注意
    • 信憑性判断サポートとは何かに関する議論は参考になる

実装システム

  • 検索システム: 「”carbon dioxide is good for plants”に反証はあるか?」と入力.それに対して反証があれば反証リストを返す
    • データベースに登録された反証リストから入力に関係するものを高速に検索する技術が重要
  • 反証収集システム: “carbon dioxide is good for plants”に反証がある場合,ユーザがブラウザ中で直ちにそれを登録ツールを提供
  • DisputeFinder: http://disputefinder.cs.berkeley.edu/ にて公開

反証DBからの反証の検索

  • DBには「claim A に対する反証はclaim Bである」といった形で反証情報が保持されている
  • マウスで選択してもらったセンテンスを単純にフレーズ検索しても引っかかるはずがない
  • Local Lexical Matching Algorithmを利用
    • 単純.ストップワードを取り除いた上で,同じキーワードを含みかつキーワードの順序も同じ文を検索?
    • 本人曰くここは色々手法があるので…

(将来的にやりたい)反証自動収集機構

  • Lexical patterns の使用
  • 例: the false claim that “Himalayan glaciers could melt away by 2035″→”the false claim that”が反証を集めるためのキーとなる
  • 現在lexical patternsが1300程度保持している
  • 実はこれに関する研究をWICOW2010で発表している

感想

  • 技術的な話というよりはかなりアプリよりな話.かなりがんばって作り込んでいるようで(英語なら)反証検索システムとしてのまあまあ使えるのでは?という印象を受けた.
  • ContradicitonDetector*が気になる

 

“Topic Initiator Detection on the World Wide Web”
Xin Jin (University of Illinois at Urbana-Champaign), Scott Spangler (IBM Almaden Research Center), Rui Ma (IBM China Research Lab), Jiawei Han (University of Illinois at Urbana-Champaign)

目的

  • クエリに関するWebページ集合の中であるトピックに関して一番最初に書いた記事を発見する
    • TDTがもろに関連する話
    • うちの研究室でも関連する研究をやっている学生がいる

アプローチ

  • クエリに関して一番最初に書いた度合いInitRankを定義
  • Centrality, novelty, originality, document length factor, term allocation compactness, earlinessの6要素からInitRankを定義
    • Centrality:
    • Novelty:
    • Originality:
    • Document length factor:
    • Term allocation compactness:
    • Earliness:
  • 6要素の結合方法は2種類用意
    • 方法1: 単純に積を取る
    • 方法2: クエリに関するページ間のリンク構造を考慮した計算

感想

  • InitRankを計算するための属性としてWebページの投稿日を使っているが,ブログのように投稿日が明記されているものもあれば,明記されていないものも多い.それをどうするのか?

 

ツイートこの記事をtweetする

WWW2010メモ: GEOSEARCH session

0
Filed under 研究

Foursquareに代表されるように今後数年はきっとGeographical search/miningが流行るんだろうと思いこのセッションを聴講.そのときのメモ.3つ発表があったが位置情報付きUGCをマイニングするという話がほとんど.Foursquareのように確かに位置情報を使ったサービスが今後数年は流行るんだろうが,”+位置情報マイニング”的な研究ではぶっ飛んで面白いサービスは出てこないだろうなぁ.

来年あたりはFoursquareのデータを使ったマイニングの話が出てきそうな気分.

 

“Collaborative Location and Activity Recommendations with GPS History Data”
Vincent W. Zheng (Hong Kong University of Science and Technology), Yu Zheng (Microsoft Research Asia), Xing Xie (Microsoft Research Asia), Qiang Yang (Hong Kong University of Science and Technology)

売り:

ある位置におけるある活動の人気度を計算するためのモデルの提案.

背景

GPSの普及により位置情報付きUGC情報が増えてきている.
例: 何処どこの店はおいしい,○○の場所では△△が有名

ゴール

位置情報付きアノテーションデータをマイニング・集約して以下の質問に答えられる検索システムを実装

  • 訪問先で何ができるか
  • ○○がしたい場合どこに行くべきか

データモデル

Q. location-activity 関係をどうモデル化するか?
A. “(場所 × 活動) = 実際にそこでそれを行った人数”  という行列

問題: こういう行列を作るとほとんどの要素がspareseになる
解決策: 場所間の類似性,活動間の類似性を考慮する

実際のシステムフロー

  1. GPSログの位置情報をマイニング,クラスタリングして人気のある場所を発見する
  2. 場所名間の類似性,活動間の類似性を計算し,(場所×場所)行列,(活動×活動)行列を作る
  3. 作成した行列を基に「場所にあった活動」「活動にあった場所」を推薦(推薦の基準は人気度,人気度はある場所である活動をしたユーザの数)

特徴的な位置情報の抽出

  • まず滞在時間が長い場所(stay spot)を抽出
  • Stay spotをクラスタリングする by Grid clustering (滞在人数が多いstay spotを中心としてある範囲以内のstay spot集合をクラスタとする??)

場所間,活動間の類似性の計算

  • 場所の類似性: 場所特徴ベクトル間のコサイン類似度を測る(場所特徴ベクトルの属性はレストラン,ショッピング,etcみたいに予め決められた属性.値はたぶんある場所の周辺における各属性の要素の頻度)
  • 活動の類似性: Webページにおける活動名の共起性

感想

  • 質疑にもあったけどGPS情報を使う必要があったのか?それが無くても「○○の場所で△△な活動がどの程度人気があるか」はWebのみからある程度抽出できそう.少なくともそれはベースラインとして必要かと.
  • 手堅い研究.データがあるからできるんだろうなぁ.ストーリー自体は普通.

 

“Find Me If You Can: Improving Geographical Prediction with Social and Spatial Proximity”
Lars Backstrom (Facebook, Inc.), Eric Sun (Facebook, Inc.), Cameron Marlow (Facebook, Inc.)

目的

  • Facebookの友達情報から所在地の分からないFacebookユーザの所在地を予想する
  • 0.1マイル×0.1マイルレベルで所在地を調べる?

解析用データ

  • Facebookユーザの所在地情報(IPアドレス or ユーザが登録したプロフィール情報)

Facebookユーザの所在地に関わる統計データ

  • 3,000,000ユーザがプロフィールに自分の所在地情報を登録 @ US (3%のユーザ)
  • 20%の友達が2マイル以内に済んでいる
  • 50%の友達が12マイル以内
  • 20%の友達が100マイル以上離れたところにいる
  • Xマイル離れたところにいるユーザが実際に友達である確率などもユーザの滞在する年の人口密度別に調査
  • などなど

所在地が未知のユーザの所在地の推定アルゴリズム

  • 仮説: あるユーザの所在地は友達の所在地に近いはず
  • 事前確率: Xマイル離れたところにいるユーザが実際に友達である確率
    # これは既に統計情報として持っている
  • ユーザの所在地間の距離を変数とする確率を考慮して尤度が最大になる位置を所在地が未知のユーザの所在地とする
    直感的な定式化: ターゲットユーザの所在地をluとしたときの尤度: Π p(|lu −lv|) Π (1−p(|lu −lv|))
    # lv: ある友達ユーザの所在地,  第一項: 友達ユーザを考慮,第二項: 非友達ユーザを考慮
  • 実際には人口密度とかなんとか複雑な要素があるし,しかも計算量がとてつもないので最適化された尤度計算方法があるみたい.

結果: 友達の数が16人以上いると70%以上の精度で可能?

感想: Facebookユーザの所在地の統計情報が色々分かる研究として面白かった

 

“Equip Tourists with Knowledge Mined from Travelogues”
Qiang Hao (Tianjin University), Rui Cai (Microsoft Research, Asia), Changhu Wang (Microsoft Research, Asia), Rong Xiao (Microsoft Research, Asia), Jiang-Ming Yang (Microsoft Research, Asia), Yanwei Pang (Tianjin University), Lei Zhang (Microsoft Research, Asia)

目的:  ある位置における特徴的なトピックを旅行UGCコンテンツから抽出

感想:

  • イントロを聴いてすごくつまらない話な気がしたので聞くのを放棄.
  • 論文をちょっとみたらトピックモデルの図が載っていたので,LDAに位置情報に関する変数を増やしたんだろうと思っていたらやっぱりその通りだった…
  • これもいわゆる位置情報を使った典型的なデータマイニング.

 

ツイートこの記事をtweetする

WICOW2010 (a workshop of WWW2010)のメモ

1
Filed under 研究

WWW2010のワークショップの一つであるWICOW2010に参加してきた.このワークショップはWebの信憑性にトピックを絞ったワークショップで僕の研究内容と非常に近い.KeynoteスピーカーがUC Santa BarbaraのProf. Metzgerという方だったのだが,僕は以前からこの方の研究をかなり参考にさせてもらっていたので,そういう意味でも今回のWICOW2010は非常に楽しみであった.

以下はWICOW2010の研究発表のメモである.英語があんまり聞き取れないし,論文を読まず発表のみでメモを取ったので意味が分からない箇所も多いと思うがとりあえずブログに貼り付けておく.

 

WICOW 2010 Keynote

“Understanding Credibility across Disciplinary Boundaries”
Milliam Metzger (UC Santa Barbara)

(山本)何度も僕が主張していることだが,やはりこの人も信憑性=正しさではなく,ユーザによって認知される特性であるbelievability = credibilityと捉えていることに注意する必要有り.

Why credibility is important on the Internet?
信憑性自体は新しくない概念.しかしインターネットの登場で考えなければならないことも多い.

信憑性に対する考え方@ social science and information science
- Social science
- 第二次世界大戦中,スピーカーの説得学の研究としてスタート
- Credibility = expertise + trustworthiness
– 他にもあるけどこれが2大キー要素

- Social science: credibility = believability, 信憑性はユーザが認知する主観的な特性
– 信憑性判断はいつも合理的に行われるモノでもない
Heuristics, mental shortcut, or rules of thumbInformation science

- 情報科学の分野では信憑性を違うように考えている
– Information qualityというコンテキスト
– Information qualityにも信憑性という要素は入っている
– 信憑性以外にもAccuracy, relevance, data security, and usability要素有り
– 情報そのもののプロパティを考えている

Web credibilityのガイドライン

  • Site features
  • Information features
  • Author features
  • User features
    – Age, Internet experience & reliance, past experience with source, motivation for search task, prior knowledge and attitudes

Old view of credibility evaluation

情報の信憑性を考える上で必要と思われる要素の例([山本]これはsource credibility,message credibilityの研究を要約したものかな)

  • Accuracy: 情報の正しさ,誤りのなさ
  • Authority: 情報の発信者,情報源がhighly regarded or not
  • Objectivity: 情報のバイアスの有無,公平さ
  • Currency: 情報が常に最新の情報か否か for User’s task
  • Coverage: 情報が十分に足りているか,網羅されているか for User’s task

信憑性といってもsiteレベル, sourceレベル, メッセージレベルと様々な着眼点がある

NEW view of credibility evaluation

  • 実際の信憑性の判断は例の5個の信憑背指標に従って行われることは少ない
  • 情報探索に高いモチベーションがあるケース以外ではヒューリスティックを考えることの方が重要
  • (山本)たぶん精査可能性モデルでいう周辺ルートを経由する場合の話
  • (山本)ChaikenのHeuristic-systematic model(HSM)とも関係あるかと
  • Bounded rationalityによる評価 (Simon, 1957)

What heuristics do people use to evaluate the credibility of Web information

(山本)周辺ルートを経由する場合のユーザの信憑性認識モデルについては以下でOKだが,そのようなユーザにどうサポートするかが重要.

  • Linking/agreement heuristic: 人は信頼されている人が信じている情報は信じる
  • Consensus/bandwagon heuristic: 人は多くの人が信じている情報は信じる
    (例) amazonで星が多い商品は良い商品であると思ってしまう
  • Familiarity/recognition heuristic: 人はよく知っている情報ソースから提供された情報を信じる
  • Similarity heuristic: 独立した情報源から同意が得られている情報を人は信じる
  • Self-confirming heuristic: 人は自分の意見に賛同してくれているような情報を信じる
  • Expectancy violation heuristic: 人は自分の期待に回答してくれている情報を信じる

Can heuristics inform credibility system design in useful ways?

(山本)これは非常に重要なポイント!

  • Prof. Metzgerの回答は”Yes”
  • 信憑性評価のアルゴリズmの中に品源の認知や感情をどう導入するのか?
  • ユーザがヒューリスティックプロセスに入っているときにどうやってそのモデルを捉え評価を支援する

Some ideas for future research

  • Similarityやlinkageを評価するためにソーシャルグラフをマイニングする.
  • そのためにはソーシャルグラフ上に有用でかつ信用できる情報提供者がたくさん存在する必要がある
  • ユーザのレビュー情報や評価なんかをマイニング,集約する
  • 意見の分布の提示,さらには適切にレビュー情報を判断するための支援ツール
  • (山本)「適切に」の意味が重要
  • Expertiseとauthorityの認識技術
  • Automate cross-validation: authoritativeデータベースの作成, human-computational systems and gamesの考慮

質疑
切れはあんまり良くなかった.たぶん聴衆の知識レベルも考慮したのかなぁ?

  • Q. Yahoo! answerとかでBest answerは時々”best”じゃないと思うんだけど,そういうrating systemのトリッキーな部分にはどう対応したら良いんだろうか?
  • Q. 情報検索分野ではUser behavior analysisをしてWisdom of crowd的な考えて情報を評価しようとしている.でもこれはあくまでpopularityにしかすぎずcredibilityにも達していないと思う.なにか意見あるかね?

感想

  • 周辺ルートを通る人は表層的なヒューリスティック指標を使うが,そういう人にそんな適当な指標を使った信憑性判断を行わせて良いのだろうか?
    周辺ルートから中心ルートへの誘導」
  • 質疑の回答でProf. Metzgerもそのようなことを言ってた
  • そもそも何らかの信憑性判断モデルを持っている人の支援はどうするか?
    -中心ルートを通る人はOK
    – 周辺ルートを通る人の中でもヒューリスティックな指標を持っていない人もいるはず

 

Session 1: Wikipedia Credibility

Detecting Wikipedia Vandalism with Active Learning and Statistical Language Models”
Si-Chi Chin, W. Nick Street, Padmini Srinivasan and David Eichmann (The University of Iowa, USA)

対象: Wikipedia
ゴール: 意地悪編集の発見
売り: Vandalismを幾つかの種類に分類.判定対象の記事の過去の編集履歴と少数のtraining setを訓練データに用いる動的学習.学習器を用いてWikiepdiaのvandalismを発見.

Vandalismの分類

  • (Insert, change, deletion) × (text, image, link, format)
  • いろいろなメディアタイプに対するvandalismを発見できる
  • 結局は編集コードを見ているので画像もテキストも関係なく発見できる
  • 発見できるのはvandalismの有無だけでこれはvandalism for image descriptionですというようには判定できない

学習には21個の素性を使用

  • その中にLanguage modelを使用していると言っているが,いわゆる確率的言語モデルではない.

学習素性の例

  • ドキュメント中の単語の数,エントロピー,パープレキシティ
  • 編集履歴中に出てきたbi-gram, uni-gram
  • 編集された文書の量など

感想:

  • Vandalismの発見はできそうな課題.あえて技術的な新規性を挙げるとしたら分析対象記事の編集履歴を学習セットの作成にうまく使っているところか.しかし,実はそこが仇で編集履歴が少ない記事のvandalismは発見できないということ.
  • Vandalismを発見した後どうするのかな?
    – Vandalismの有無しか分からない.どんな種類のvandalismかは分からない

 

“On Measuring the Quality of Wikipedia Articles”
Gabriel de la Calzada and Alex Dekhtyar (California Polytechnic State University, USA)

対象: Wikipedia
ゴール: Wikipediaの品質評価
売り: 記事の評価観点も色々あるので,それぞれにふさわしい評価モデルで評価を行い総合的に記事の品質を評価 (※ 実は品質評価と言いつつ,Stable度合い, controversial度合いの評価方法がメイン)

Wikipedianな感じの人が発表.発表の鼻息が荒かった.

Wikipediaのquality evaluationモデルを2つ用意.

  • Stability: 記事の長さ,セクションの数,inlink, outlinkの数などを評価属性に使用
  • Controversiality: 編集回数,編集をしたユーザの特性(anonymous or not)

学習を用いてStableな記事度合い,Controversialな記事度合いをそれぞれ計算.
最後に二つの値を合成.

評価はユーザ評価と合成スコアとの相関を調査.

感想:

  • 仮説がよく分からなかった.Stableな記事は品質が高い?というわけではないみたい
  • 特にStableな記事,controversialな記事を見つけたいわけではないのだから,最初から二つのタイプを分けずに品質の評価関数を作ったら良かったのでは?
  • StableとControversialというのは相対する概念のような気がするが発表者はそれは違うようだ.

 

“Trust in Wikipedia: How Users Trust Information from an Unknown Source”Teun Lucassen and Jan Maarten Schraagen (University of Twente, The Netherlands)

対象: Wikipedia
ゴール: Wikipediaの信憑性(trustworthiness)を評価する際にユーザが重要視している尺度の調査
売り: あまりされていないWikipediaに関する信憑性尺度の調査を実際にやった点

CSの研究者ではなさそう.Wikipediaセッションの中では最も真面目に信憑性というのを考えている印象を受けた.

調査方法

  • 12人の大学院生にWikipediaの信憑性評価に関するアンケートを実施
  • 併せてWikipediaのオフィシャルスタッフによって信憑性チェックされた記事との評価とを比較

Wikipediaの信憑性を評価する際に使用している指標

  • Image – 13%(relevance, quality, quantityに関連)
  • Reference – 26% (quality, quantity)
  • Textual feature – 26% (comprehensiveness, correctness, length)

感想:

  • 調査の被験者が少ない,大学院生であったこと,評価に用いた記事のカテゴリにも偏りがあることが気になる
    -記事によっては信憑性判断に用いる指標が違うはず
  • 質疑にもあがったが言語(文化)によっても違うというのもある
  • Unknownな記事とknownな記事でも指標が違うというのが信憑性を考える上でのポイントなので,そのあたりの違いを知りたかった.
  • 論文中には専門家が記事を判断する上で用いる指標と素人のそれとの比較が載っているみたい
  • Trustworthines vs. expertise
  • 重要な指標として挙げられたものにWikipedia特有なモノとか目新しいモノとかはなかったが,再確認としては良かったのかと.ただやっぱり難しいなと思うのが「各指標をどう計算機の上で扱えるようにするか」.Textual featureのcorrectnessとかcomprehensivenessが重要というのはある意味当たり前.

 

Session 2: Studies of Web Information Credibility

“Smart Marketing or Bait & Switch? Competitors’ Brands as Keywords in Online Advertising”
Mark Rosso (North Carolina Central University, USA) and Bernard Jansen (The Pennsylvania State University, USA)

  • 対象: sponsored searchの広告
  • ゴール: 検索連動型広告における相乗り広告の使用調査.
  • 売り: こんな調査はあまりない

[問題設定]

Googleに”pontiac(車メーカー)”と入力したときに”Mazda vs. Pontiac”というタイトルの広告が出てくる.このときに,PontiacはMazdaの製品が掲載されている広告中に自社の名前が使用されているを認めるのか?

  • # 検索連動型広告における商標違犯に関する不満は結構あるそうだ.
  • # このようにある企業の広告に別の企業の宣伝が混じる広告を”相乗り広告”と呼ぶ

商標に関する違犯事項

  • Use in commerce
  • likelihood of consumer confusion

[目的]

相乗り(piggyback)広告は検索連動型広告のビジネスモデルに悪影響がある可能性あり.(たぶん)相乗り広告の存在によって,検索連動型広告はブランドの構築するのに不適である可能性もある.

そこで,検索結果広告が相乗り広告をどの程度含んでいるのかを調査:

  • 300以上の有名企業の名前を検索エンジンに入力
  • 得られた各検索結果広告を自社広告か相乗り広告を手作業で分類
  • 相乗り広告の分類はさらにライバル広告かパートナー広告,opportunistic広告に分類

[結果]

  • 検索結果広告の半数以上が相乗り広告(Yahoo!の場合90%)
  • ただし相乗り広告の70%はパートナー企業の広告
  • 敵対企業に関するクエリがトリガーになる広告は相乗り広告の4%程度
  • 相乗り広告の悪影響を心配する必要はそれほど無い

[感想]

  • お話としては面白い研究だったが信憑性と関係はあったのかな?

 

“TIME: A Method of Detecting the Dynamic Variances of Trust”
Laurian Vega, Yeong-Tay Sun, Scott McCrickard and Steve Harrison (Virginia Tech, USA)

  • 対象: Webサイトの信憑性
  • ゴール: 変化するWebサイトの信憑性をインタラクションを通じて評価するための実用的なツール開発
  • 売り: 動的に変化するWebサイトの信憑性に着目して分析を行うツールは全然無い.
  • 前提:ある対象への信憑性はユーザが対象とインタラクションを交わす毎に変化する.

システムの概要:

適当なタイミングでサイトの信憑性に関する質問をポップアップするシステム.
ポイントは(1)どんな質問を (2)どのタイミングで行うか.

質問内容: 信憑性評価のための尺度:

  • 既存研究で提案されている尺度を代用.事前にサイトの信憑性に関する質問を用意.

タイミング:

  • 変化する信憑性のトラッキングのタイミングとしてMicro-interactionに注目:
  • Micro-interaction = かなり小さいインタラクション.クリックやスクロール操作
  • インタラクションが発生した直後に信憑性に関する質問リスト(リカート尺度)がポップアップされる.
  • (ポップアップを表示させる間隔は最低30秒はあける)

感想:

  • 動的に信憑性が変化する,というモチベーションはその通りなのでどんな話かと楽しみにしていたが,信憑性の評価手法については既にあるモノを利用しているようで,研究の中心は分析ツールをどう実装するかの話になっていた.
  • システムの作り込み方によってユーザのWebサイトに対する信憑性を正確に捉えられるかどうかも変わるという結果も出ている.信憑性を測るアルゴリズムも大事だが,信憑性を測るためのシステムや信憑性サポートするための”システム”の信頼性のようなものも重要かと思った.
  • 関連研究は信憑性研究謝にとっては何か参考になりそうなものが載ってそう

 

Session 3: Evaluating Information Credibility

“Identifying Spam Link Generators for Monitoring Emerging Web Spam”
Young joo Chung, Masashi Toyoda and Masaru Kitsuregawa (The University of Tokyo, Japan)

お話としてはよくあるスパム発見の延長の話.

  • 興味があるのは学習の素性に使われるRelative TrustRank. Whiteリストを用いたTrustRankとBlackリストを用いたTrustRankを結合して負のスコアを持つTrustRankも扱えるようにしているところに少し興味があった.
  • 直感的には RelativeTrust(p) = TrustRank(S+)(p) – TrustRank(S-)(p).

# TrustRank(S+)(p) = ホワイトリストを用いた場合のページpのTrustRank値

以上の式で計算するとホワイトリスト/ブラックリストの大きさに影響を受けてしまうので,

  • RelativeTrust(p) = log(TrustRank(S+)(p)) – log(TrustRank(S-)(p)) – δ
  • δ = log( ||S+|| / N ) – log (||S-|| / N )

として,シードの大きさを考慮して補正している.

 

“SpotRank: A Robust Voting System for Social News Websites”
Thomas Largillier (Universite Paris Sud XI, France), Sylvain Peyronnet (Universite Paris Sud; INRIA; CNRS, France) and Guillaume Peyronnet (Nalrem Medias, France)

  • Diggのようなユーザが記事を評価するようなサイトでスパム投稿を発見するための手法を提案.
  • 思いつきで用意した指標を組み合わせてSpotRankというスコアを計算.そのスコアの大小によってスパムを発見.
  • またスパム発見.スパム発見はイタチごっこなので発表一つでお腹いっぱい.

感想

  • 手法の妥当性が良く分からない.もっとSophisticatedな手法はあるはずなのになんでこんなヒューリスティックな戦略を採ったのか発表からはよく分からなかった.

 

“What is Disputed on the Web?”
Rob Ennals (Intel Labs Berkeley, USA), Dan Byler (University of California at Berkeley, USA), John Mark Agosta (Intel Labs Berkeley, USA) and Barbara Rosario (Intel Labs Berkeley, USA)

Lexical syntactic patternを用いて反対記述のある記述をWebから収集

  • 例)  the myth that “ghost exists”, it is not true that  ”ghost exists”という記述がある場合,”ghost exists”という記述には反対記述有りとする

手順:

1. 反証記述発見のパターンを生成

  • 少数(54個)のパターンを予め用意
  • そこからブートストラップ的にパターンを増やす
  • 増やしたパターンから使えるパターンを選ぶのは今のところ手作業らしい

2. パターンで検索して反証記述がある記述を収集

  1. “the myth that”で検索
  2. “the myth that (claim S)”のときclaim Sを反証記述有り記述として抽出
  3. 反証記述のフィルタリング
  • 例: the false claim that [won't go away]
  • won’t go away は抽出すべき記述ではない.
  • 現状,動詞から始まる記述は除去
  • 他にも色々フィルタリングルールがあるみたい

関連研究

  • 反対記述をユーザにアノテーションさせる(e.g. Diigo, SpinSpotter, Videolyzer)

 

“Modulating Video Credibility via Visualization of Quality Evaluations”
Nicholas Diakopoulos (Rutgers University, USA) and Irfan Essa (Georgia Institute of Technology, USA)

例のVideolyzerの続編.

Videolyzerのアノテーション情報がユーザのビデオに対する信憑性判断にどのような影響を与えるかを調査.

調査にはAmazon mechanical turkを使用(3種類のビデオ).

結果:

  • アノテーション情報の提示はネガティブな内容のビデオを視聴時には信憑性判断に影響.
  • ポジティブな内容のビデオ視聴時には影響なし.

感想:

  • 影響の有無を調べるための実験の設計が参考になると思った.
  • システムの影響の有無→システムの使用頻度 vs. 信憑性有無の判断結果
  • 提示する情報として何が信憑性判断に影響するかもついでに調べて欲しかった
  • 態度変容の有無を調べているが,実は態度変容が妥当だったのかは調べていない.
    – これはでもうーん信憑性に対する前提の問題
ツイートこの記事をtweetする

WWW2010で聞いてみようと思った発表

0
Filed under 研究

今日からWWW2010出張に行ってくる.前日,前々日と用事が立て込んでいたためWWW2010で聞きたい研究発表を調べるのを忘れていた.搭乗前に時間があったのでプログラムから僕の聞きたい発表リストをピックアップした.以下そのリスト.フォローできる範囲で報告も行おうと思う.

 

Technical PapersWednesday, 2:00 – 3:30 PM
* SESSION: RANKING 1
Classification-Enhanced Ranking
Paul N. Bennett, Krysta Svore, Susan Dumais
Generalized Distances between Rankings
Ravi Kumar, Sergei Vassilvitskii
* SESSION: GEO SEARCH
Find Me If You Can: Improving Geographical Prediction with Social and Spatial Proximity [PDF]
Lars Backstrom, Eric Sun, Cameron Marlow
* SESSION: RANKING 2
Beyond Position Bias: Examining Result Attractiveness as a Source of Presentation Bias in Clickthrough Data
Yisong Yue, Hein Roehrig, Rajan Patel
Visualizing Differences in Web Search Algorithms using the Expected Weighted Hoeffding Distance
Mingxuan Sun. Guy Lebanon, Kevyn Collins-Thompson
* SESSION: TEXT MINING
Topic Initiator Detection on the World Wide Web
Xin Jin, Scott Spangler, Rui Ma, Jiawei Han
Thursday, 10:30 AM – 12:00 PM
* SESSION: MULTIMEDIA
Statistical Models of Music-listening Sessions in Social Media
Elena Zheleva, John Guiver, Eduarda Mendes Rodrigues, Natasa Milic-Frayling
What are the Most Eye-Catching and Ear-Catching Features in the Video? Implications for Video Summarization
Yaxiao Song, Gary Marchionini, Chi Young Oh
* SESSION: DIVERSITY
Actively Predicting Diverse Search Intent from User Browsing Behaviors
Zhicong Cheng, Bin Gao, Tie-Yan Liu
Exploiting Query Reformulations for Web Search Result Diversification
Rodrygo Santos, Craig Macdonald, Iadh  Ounis
* SESSION: BROWSERS 1
Object Views: Fine-Grained Sharing in Browsers
Leo Meyerovich, Adrienne Felt
Dynamic and Graphical Web Page Breakpoints
John Barton, Jan Odvarko
* SESSION: USER MODELS
Stochastic Models for Tabbed Browsing
Flavio Chierichetti, Ravi Kumar, Andrew Tomkins
A Characterization of Online Search Behavior
Ravi Kumar, Andrew Tomkins
Thursday, 3:30 – 5:00 PM
* SESSION: VISUAL INTERFACES
A Comparison of Visual and Textual Page Previews in Judging the Helpfulness of Web Pages
Anne Aula, Rehan Khan, Peter Hong, Zhiwei Guan, Paul Fontes
* SESSION: RICH QUERIES
Liquid Query: Multi-domain Exploratory Search on the Web
Marco Brambilla, Alessandro Bozzon, Stefano Ceri, Piero Fraternali
A Novel Traffic Analysis for Identifying Search Fields in the Long Tail of Web Sites
George Forman, Evan Kirshenbaum, Shyamsundar Rajaram
SESSION: INTERNET MONETIZATION 2
Competing for Users’ Attention: On the Interplay between Organic and Sponsored Search Results
Cristian Danescu-Niculescu-Mizil, Andrei Broder, Evgeniy Gabrilovich, Vanja Josifovski, Bo Pang
The Anatomy of an Ad: Structured Indexing and Retrieval for Sponsored Search
Michael Bendersky, Evgeniy Gabrilovich, Vanja Josifovski, Donald  Metzler
Friday, 10:30 AM – 12:00 PM
SESSION: QUERY ANALYSIS 1
Exploring Web Scale Language Models for Search Query Processing
Jian Huang, Jiangbo Miao, Xiaolong Li, Jianfeng Gao, Kuansan Wang
Optimal Rare Query Suggestion With Implicit User Feedback
Yang Song, Li-wei He
Friday, 1:30 – 3:00 PM
* SESSION: QUERY ANALYSIS 2
Towards Natural Question Guided Search
Alexander Kotov, ChengXiang Zhai
Clustering Query Refinements by User Intent
Eldar Sadikov, Jayant Madhavan, Lu Wang, Alon Halevy
Friday, 3:30 – 5:00 PM
* SESSION: SERVICES 2
Volunteer Computing: A Model of the Factors Determining Contribution to Community-Based Scientific Research
Oded Nov, David Anderson, Ofer Arazy
* SESSION: FACETS
Facetedpedia: Dynamic Generation of Query-Dependent Faceted Interfaces for Wikipedia
Chengkai Li, Ning Yan, Senjuti  Roy, Lekhendro Lisham, Gautam Das
Towards Rich Query Interpretation: Back and Forth on Query Template Mining
Govind Kabra, Kevin Chang, Ganesh Agarwal

* SESSION: RANKING 1

Classification-Enhanced Ranking
Paul N. Bennett, Krysta Svore, Susan Dumais

 

Generalized Distances between Rankings
Ravi Kumar, Sergei Vassilvitskii

 

* SESSION: GEO SEARCH

Find Me If You Can: Improving Geographical Prediction with Social and Spatial Proximity
Lars Backstrom, Eric Sun, Cameron Marlow

 

* SESSION: RANKING 2

Beyond Position Bias: Examining Result Attractiveness as a Source of Presentation Bias in Clickthrough Data
Yisong Yue, Hein Roehrig, Rajan Patel

 

Visualizing Differences in Web Search Algorithms using the Expected Weighted Hoeffding Distance
Mingxuan Sun. Guy Lebanon, Kevyn Collins-Thompson

 

* SESSION: TEXT MINING

Topic Initiator Detection on the World Wide Web
Xin Jin, Scott Spangler, Rui Ma, Jiawei Han

 

Thursday, 10:30 AM – 12:00 PM

* SESSION: MULTIMEDIA

Statistical Models of Music-listening Sessions in Social Media
Elena Zheleva, John Guiver, Eduarda Mendes Rodrigues, Natasa Milic-Frayling

 

What are the Most Eye-Catching and Ear-Catching Features in the Video? Implications for Video Summarization
Yaxiao Song, Gary Marchionini, Chi Young Oh

 

* SESSION: DIVERSITY

Actively Predicting Diverse Search Intent from User Browsing Behaviors
Zhicong Cheng, Bin Gao, Tie-Yan Liu

 

Exploiting Query Reformulations for Web Search Result Diversification 
Rodrygo Santos, Craig Macdonald, Iadh  Ounis

 

* SESSION: BROWSERS 1

Object Views: Fine-Grained Sharing in Browsers
Leo Meyerovich, Adrienne Felt

 

Dynamic and Graphical Web Page Breakpoints
John Barton, Jan Odvarko

 

* SESSION: USER MODELS

Stochastic Models for Tabbed Browsing
Flavio Chierichetti, Ravi Kumar, Andrew Tomkins

 

A Characterization of Online Search Behavior
Ravi Kumar, Andrew Tomkins

 

Thursday, 3:30 – 5:00 PM

 

* SESSION: VISUAL INTERFACES

A Comparison of Visual and Textual Page Previews in Judging the Helpfulness of Web Pages
Anne Aula, Rehan Khan, Peter Hong, Zhiwei Guan, Paul Fontes

 

* SESSION: RICH QUERIES

Liquid Query: Multi-domain Exploratory Search on the Web
Marco Brambilla, Alessandro Bozzon, Stefano Ceri, Piero Fraternali

 

A Novel Traffic Analysis for Identifying Search Fields in the Long Tail of Web Sites
George Forman, Evan Kirshenbaum, Shyamsundar Rajaram

 

SESSION: INTERNET MONETIZATION 2

Competing for Users’ Attention: On the Interplay between Organic and Sponsored Search Results
Cristian Danescu-Niculescu-Mizil, Andrei Broder, Evgeniy Gabrilovich, Vanja Josifovski, Bo Pang

 

The Anatomy of an Ad: Structured Indexing and Retrieval for Sponsored Search
Michael Bendersky, Evgeniy Gabrilovich, Vanja Josifovski, Donald  Metzler

 

Friday, 10:30 AM – 12:00 PM

SESSION: QUERY ANALYSIS 1

Exploring Web Scale Language Models for Search Query Processing
Jian Huang, Jiangbo Miao, Xiaolong Li, Jianfeng Gao, Kuansan Wang

 

Optimal Rare Query Suggestion With Implicit User Feedback
Yang Song, Li-wei He

 

Friday, 1:30 – 3:00 PM

 

* SESSION: QUERY ANALYSIS 2

Towards Natural Question Guided Search
Alexander Kotov, ChengXiang Zhai

 

Clustering Query Refinements by User Intent
Eldar Sadikov, Jayant Madhavan, Lu Wang, Alon Halevy

 

Friday, 3:30 – 5:00 PM

 

* SESSION: SERVICES 2

Volunteer Computing: A Model of the Factors Determining Contribution to Community-Based Scientific Research
Oded Nov, David Anderson, Ofer Arazy

 

* SESSION: FACETS

Facetedpedia: Dynamic Generation of Query-Dependent Faceted Interfaces for Wikipedia
Chengkai Li, Ning Yan, Senjuti  Roy, Lekhendro Lisham, Gautam Das

 

Towards Rich Query Interpretation: Back and Forth on Query Template Mining
Govind Kabra, Kevin Chang, Ganesh Agarwal

 

 

ツイートこの記事をtweetする

どんな国際会議に投稿すればよいのかと聞かれた

0
Filed under 研究

研究室を改善していくためにはまさに卒業直前の学生に率直な意見を聞くのがベストである.という理由で最近M2の学生の方々に研究室生活に関する色々な質問をしているのだが,そのときに出てきた一つの意見が

 

「国際会議に投稿しようと思ってもどんな会議があるのか分からない」

 

ということだった.国際会議に論文を投稿するというのは研究力を高めたいという学生にも大事なことであるが,そうでない学生にも「奨学金免除のために実績を残したい」ということで重要だったりする.それは非常に大事なことだ.

長い間研究をしている先生方は投稿ターゲットになる国際会議を知っているが,研究にそれほど長く接していない学生にとってはどんな国際会議があって,それらがどれくらいのレベルなんかなど知るよしもない.

 

ということで,某研究室がターゲットにしている国際会議リストを山本の私見でまとめてみようと思った.まだまだ不完全であるがこちら(ウェブ研究に取り組む某研究室のターゲット国際会議)から閲覧できる.4月からM1,M2なる学生,そして新しく入ってくる学部生に参考になれば幸い.

 

ツイートこの記事をtweetする