WWW2010メモ: TEXT MINING session

Filed under 学会

WWW2010,1日目の第2セッションはtext miningに決定.その際のメモ.個人的に興味があったのは二つ目の発表.この発表者はWICOW2010でも発表していたんだが,その内容が僕がほんとサーチで実現したかったことをやっていたのでどうしても聞きたかったというわけ.

 

“Cross-Domain Sentiment Classification via Spectral Feature Alignment”
Sinno Jialin Pan (Hong Kong University of Science and Technology), Xiaochuan Ni (Microsoft Research Asia), Jian-Tao Sun (Microsoft Research Asia), Qiang Yang (Hong Kong University of Science and Technology), Zheng Chen (Microsoft Research Asia)

目標

センチメント判定の話.今回の提案では違うドメインで作ったセンチメント学習器を別ドメインのセンチメント判定にうまく活用できるにするというのがメインテーマ.

背景

  • ドメイン毎にセンチメント決定に使われる言葉が違う
  • それゆえ 既存のセンチメント判定にはドメイン毎にセンチメント学習器を作成する必要がある→それは大変な作業

アプローチ
(予想できるアプローチだが)ドメイン間で共通して使用されるセンチメント決定語 (domain-independent features)に着目

  1. domain-independentな語毎の共起度を属性にしてdomain-specificな語を特徴ベクトル化
  2. その特徴ベクトルを使って別ドメイン中に出現するdomain-specificな語をクラスタリング
  3. 同じクラスタにある語は同程度のpolarityを持つセンチメント語となる
    例: electronicsドメインの”blurry”とvideo gameドメインの”boring”は同程度のpolarity
  4. その結果を使って別ドメインのセンチメント学習器を作成

感想

  • ドメイン間でpolarityが近い語を対応させる手法はもっと工夫ができそう

 

“Highlighting Disputed Claims on the Web”
Rob Ennals (Intel Labs Berkeley), Beth Trushkowsky (University of California at Berkeley), John Mark Agosta (Intel Labs Santa Clara)

 

背景: Web上のある情報は全部が全部正しいわけではない.バイアスがかかった情報,主観が入った情報も多い.

目的

  • 閲覧している情報に反証情報があるときに通知するシステムの提案
  • 今回の提案ではブラウザの拡張として実装.
    • ユーザが反証の有無を確かめたいときに使うことを想定したシステム
    • Webページ中のセンテンスを選択すると反証が提示される

課題

  • 反証情報のコーパスの作成(presion, credibilityの問題)
    • 現状1: システムを通してユーザに登録してもらった反証情報を使用
    • 現状2:  SnopesやPolitiFact(Webサイト)から収集
    • 将来的には自然言語処理(ContradicitonDetector*)を上手に使って反証情報を集めたい
  • 反証情報の提示システム(お節介 vs. 有用性)
    • とりあえずは信憑性が高そうなソース(ニュース,新聞サイトetc)から提供されている反証情報を重視したいが…「信憑性高い = 正しい情報」「正しい情報 = 信憑性高い」とは限らないに注意
    • 信憑性判断サポートとは何かに関する議論は参考になる

実装システム

  • 検索システム: 「”carbon dioxide is good for plants”に反証はあるか?」と入力.それに対して反証があれば反証リストを返す
    • データベースに登録された反証リストから入力に関係するものを高速に検索する技術が重要
  • 反証収集システム: “carbon dioxide is good for plants”に反証がある場合,ユーザがブラウザ中で直ちにそれを登録ツールを提供
  • DisputeFinder: http://disputefinder.cs.berkeley.edu/ にて公開

反証DBからの反証の検索

  • DBには「claim A に対する反証はclaim Bである」といった形で反証情報が保持されている
  • マウスで選択してもらったセンテンスを単純にフレーズ検索しても引っかかるはずがない
  • Local Lexical Matching Algorithmを利用
    • 単純.ストップワードを取り除いた上で,同じキーワードを含みかつキーワードの順序も同じ文を検索?
    • 本人曰くここは色々手法があるので…

(将来的にやりたい)反証自動収集機構

  • Lexical patterns の使用
  • 例: the false claim that “Himalayan glaciers could melt away by 2035″→”the false claim that”が反証を集めるためのキーとなる
  • 現在lexical patternsが1300程度保持している
  • 実はこれに関する研究をWICOW2010で発表している

感想

  • 技術的な話というよりはかなりアプリよりな話.かなりがんばって作り込んでいるようで(英語なら)反証検索システムとしてのまあまあ使えるのでは?という印象を受けた.
  • ContradicitonDetector*が気になる

 

“Topic Initiator Detection on the World Wide Web”
Xin Jin (University of Illinois at Urbana-Champaign), Scott Spangler (IBM Almaden Research Center), Rui Ma (IBM China Research Lab), Jiawei Han (University of Illinois at Urbana-Champaign)

目的

  • クエリに関するWebページ集合の中であるトピックに関して一番最初に書いた記事を発見する
    • TDTがもろに関連する話
    • うちの研究室でも関連する研究をやっている学生がいる

アプローチ

  • クエリに関して一番最初に書いた度合いInitRankを定義
  • Centrality, novelty, originality, document length factor, term allocation compactness, earlinessの6要素からInitRankを定義
    • Centrality:
    • Novelty:
    • Originality:
    • Document length factor:
    • Term allocation compactness:
    • Earliness:
  • 6要素の結合方法は2種類用意
    • 方法1: 単純に積を取る
    • 方法2: クエリに関するページ間のリンク構造を考慮した計算

感想

  • InitRankを計算するための属性としてWebページの投稿日を使っているが,ブログのように投稿日が明記されているものもあれば,明記されていないものも多い.それをどうするのか?