Category Archives: 学会

「行列のできるURAお悩み相談所」の狙いについて

0
Filed under URA, 学会, 徒然

2013年11月18-19日に開催された第3回URAシンポジウム・第5回RA研究会「行列のできるURAお悩み相談所」という企画を実施した.企画の狙いに関して,文書で発表する機会がなかったので,この場を持ってちょっとだけ説明しようと思う.

 

企画者の思い

私たちが今回の企画で目指したこと,それは研究会を「本当の意味」で経験・知識を共有・議論する場にするということです.コミュニティの中で知識やスキル,課題を共有・議論するためには,研究会やシンポジウムを利用するというのが一般的です.URA業界でも同様の取り組みは行われていますが,どうも概要的な発表が多く,持ち帰って自分の業務に活かしにくい.本当はもっと踏み込んで議論したいのに,形式的な議論に留まっている.参加者が競合相手であり,かつ扱っている内容も機密事項も多いからなのでしょうか.とにかく,こういったシーンが多いように感じていました.シンポジウムや研究会の開催実績が残るだけでは,なんだか虚しいですよね.URAの必要性を世に知らしめるためには,URA自身のレベルをもっとUPさせないといけない.そのためには,コミュニティの中で実務にもっと踏み込んでざっくばらんに議論する場をデザインしたいと思いました.

形式的なイベントに終わらないよう,色々な事を考えました.

  • URAのみんなが実際に悩んでいる問題を議論し持ち帰ってもらうにはどうしたらよいか?
  • どんな小さい疑問・悩みでもいいので,正直に意見を出してもらうにはどうしたよいか?
  • たくさんの人に参加してもらい、会場でもいろいろと考えてもらうにはどうしたらよいか?

等々,URAシンポジウム・研究会に参加された方に共感をもっていただき,行動を促せるような場について企画者同士で議論し,必要であれば知り合いのURA関係者に意見も求めました.その結果,

  • 匿名で悩み・疑問を投稿する
  • 多様なバックグラウンドを持つ相談員に大喜利形式で解決策を語ってもらう
  • 投稿してもらった悩み・疑問でポスターを完成させていく

といったアイデアが生まれ,それらを統合する形であの異色のポスターそして企画セッションが作られました.

200人を超えるセッション参加申し込み者の皆様の期待に応えられたかどうかは分かりませんが,URAの自己研鑽の場を作る上で今回の取り組みが何かの参考になれば幸いです.そして,今回の経験を糧にURAコミュニティがより活発になるような活動を行っていきたいと思います.本企画にご興味・ご関心をお持ちの方がおられましたら,ぜひ一緒に何かやりましょう.

WWW2010メモ: Social Network 4 session

0
Filed under 学会

WWW2010,Social Network 4セッション.メモを書いて下書きのままにしてあったからせっかくなのでUP.Social network系は情報検索屋,データマイニング屋だけじゃなくて社会学屋さんも参戦していたみたい.そういうのは近年より”村”化しているWWWとしては多様性が出て良いことではなかろうか.

 

“What is Twitter, a Social Network or a News Media?”
Haewoon Kwak, Changhyun Lee, Hosung Park, Sue Moon

概要

  • ありとあらゆるtwitterの統計分析をやってみたという話.調査論文としては引用できそう.

背景と目的

  • twitterの利用方法(1): 友達同士のコミュニケーションのために使う
  • twitterの利用方法(2):RSS的な一方向の情報収集
  • 一体どっちの使われ方をしているのかを調査してみよう

データコレクション

  • 41.7Mユーザ
  • 106Mつぶやき(スパムは除去)
  • 四ヶ月間のつぶやき

以下は統計情報に関するメモの一部

Followする理由:

  • 友達関係の構築 or 情報の収集のどちらかと考えられる
  • 調べてみると,,,22%のユーザがお互いをフォローし合っている
    • この値は他のソーシャルネットワークよりもあ圧倒的に低い(flick 68%)

つぶやきの内容

  • 大半のtweetがニュース(80%)
  • しかもトピックの大半がニュースのヘッドライン(54.3%)

自分の発言がretweetされるとき平均何パスくらいまで波及するか?

  • 96%のretweetが1パスしか波及しない(一回止まり)
  • 55%のretweetが一時間以内になされる

感想

  • データセットの集め方が「ホットトピックを語を使って検索した結果を収集」という形を取っているので,そりゃデータに偏りが出るでしょ.
  • 馴れ合い目的でtwitterをやっている人が少ないという結果が出ているけど日本ではどうなのかな?
  • 情報収集ならRSSで留めておいた方が良くないのかなぁ.Twitterを情報活用として利用するとあまりにも情報量が多すぎて…

 

“Earthquake Shakes Twitter Users: Real-time Event Detection by Social Sensors”
Takeshi Sakaki, Makoto Okazaki, Yutaka Matsuo

松尾先生の研究室の学生さんの発表.
twitterの一番大きな特性は”超リアルタイム性” .リアルタイムなイベント抽出(時空間分析)をしようという研究.

分析

  1. 注目しているイベントに関連するキーワードに関するつぶやきをクロール
  2. 収集したつぶやきをpositive/negativeに分類(個々でいうPositiveというのはイベントとの関連性があるか否かを指しているんだと思われる)
    1. SVMで学習.
    2. 素性:単語数,キーワードが出現する位置,…
  3. Positiveなつぶやきのみトラッキング
  4. つぶやきの時系列解析: 通常のつぶやき発生確率モデル(これは日々の観測から推定しておく)からつぶやきの傾向が外れたときイベントが発生として認識
  5. 空間分析: フォローできなかった.

評価に関して

  • Positive/Negative分類: 短いつぶやきだとイベントにPositiveなものが多い.へぇー
  • 松尾先生のところの研究はこれでもかというくらいに実験をするので圧倒される.これは論文を書くテクニックとして見習いたい.
  • 発表にネタが仕込まれすぎていて発表に気合いを感じた
  • 地震みたいなイベントを実用的なレベルで抽出しようと思うけどすごい細かい頻度でクロールしないといけないんじゃないのかね?
  • 質疑にもあったけど地震が発生したと勘違いしてつぶやいた場合やばいよね.

 

 

WWW2010メモ: Query Analysis 1 session

0
Filed under 学会

WWW2010,Query Analysisセッションのメモ.発表者全員がMicrosoft Resarch関係者だったのが印象的だった.

 

“Exploring Web Scale Language Models for Search Query Processing”
Jian Huang, Jiangbo Miao, Xiaolong Li, Jianfeng Gao, Kuansan Wang

目的:

  • WebドキュメントとクエリログをコーパスとしたN-gramモデルの分析とそのクエリ処理への応用
  • 結果はMicrosoft Web N-gram コーパスとして配布?

背景:

  • 普通のドキュメントのlanguage modelとクエリのlanguage modelは当たり前だけど異なる
  • 例えばWebコーパスから作った言語モデルをクエリの言語処理に用いるのは不適当
  • 2種類のWebコーパスについて言語モデル(ngram)の性質の違いを分析
    • Title, anchor text, body
    • クエリログ

二つのN-gram言語モデルの違いを分析.
評価尺度:Cross entropyとperplexity (二つともエントロピーのようなモノ) .

  • (聞き逃したが)クエリログの

言語モデルのクエリスペル修正への応用

  • 2-gramよりも3-gram, 4-gramの方を使った方が断然性能は良い.しかし
  • Queryログから作成された言語モデル > Anchor > …

クエリ構造分析 (query bracketing)

  • 3語のクエリ: [Sore gum] treatment, sore [gum treatment]を見分けたい
  • これを行うために言語モデル(bi-gram)と単語間の共起関係(PMI),カイ二乗検定を駆使する手法を提案
  • 評価:
    • ベースラインとして左2語をペアリング: 60%程度
    • 明らかにクエリ構造があるクエリに関しては,PMIを使っただけでも90%でquery bracketingに成功(bi-gram, カイ二乗検定でも80%程度は出ている)
    • しかもコーパスはクエリログよりもWebドキュメント情報を使った方が精度が出る

長いクエリの分断(Long query segmentation)

  • 4語以上の単語: 20%
  • クエリの意図をちゃんと見極めるためにも長いクエリの分割が必要
  • 例: raleigh serengeti mountain bike candidate tire
    • [raleigh serengeti] [mountain bike] [candidate tire] etc..
  • 分割手法: Segment-based PMIを計算し値が最大になるようにクエリを分解していく.
    • 例: A B C D E F → [A B C D] [E F] → [A B ] [C D] [E F] →…

感想

  • クエリをコーパスにした言語モデルと純粋にドキュメントをコーパスにした言語モデルの違いを調べるのは良いことだと思ったが,クエリ処理(スペルコレクション等)を行うのに実はドキュメントから生成した言語モデルの方が有効に働くというのは意外だった(直感的には...).
  • Query bracketingもquery segmentationも実は「ユーザが入力したクエリの順序は正しい」という仮定を置いていたみたいだけどそうなのかな?

 

“Optimal Rare Query Suggestion With Implicit User Feedback”
Yang Song, Li-wei He

背景と手法

  • クエリ推薦に良く使用される手法としては(クエリ, ClickURL)から作成したクエリグラフにrandom walkモデル解析を適用することだが,これは頻度が高いクエリにしか通用しない.
  • そこでクリックされなかったURL情報も使ったクエリ推薦手法を構築するのが目的

手法の詳細

  • 疑似フィードバックを組み込む
    • 仮説: SkippedURLはClickURLよりは適合性が低い
  • (query, ClickedURL) の二部グラフ,(query, SkippedURL)の二部グラフを別々に作成してRandom Walk解析
    • Random walk解析(僕の予想): (1) ipodを含むクエリ (ipod nano, ipod mini, ipod touchなど)をクエリログから収集.(2) 収集されたクエリとURLのペアからなる二部グラフ作成.(3)二部グラフとはいうもののグラフと見なしてPageRank的にRandomWalkしたときに最も滞在確率が高いノードを探す(dampling factorの項をクエリ拡張対象語以外の値を0とする)
  • その後二つの結果を結合して,あるクエリに関して最適なクエリ語を推薦
    • 結局の所,ClikedURLとクエリの二部グラフの分析結果とSkippedURLのそれとの分析結果をマージするということ

感想

  • Rare queryへのクエリ推薦とかいってたので面白いかなぁと思っていたら,ふたを開けてみるとクエリ推薦の精度改善のために既存手法を拡張したという話だった.
  • 実はSkippedURLとかあんまり必要ないのでは?そもそもレアクエリに対して本当に精度が上がっているのかが謎.
  • クエリ推薦のための解析手法であるrandom walk modelが分かっていることが前提でプレゼンされたので訳が分からなかった(あとで論文を読んだら分かった).

WWW2010メモ: Internet Monetization session

0
Filed under 学会

WWW2010,二日目二つ目のセッションはInternet Monetizationを選択.検索エンジン会社がお金を稼ぐためにどういう工夫をしようとしているのかが見えた.3つ発表があったがBroder氏が関与していた一つ目の発表が個人的に面白かった.

 

“Competing for Users’ Attention: On the Interplay between Organic and Sponsored Search Results”
Cristian Danescu-Niculescu-Mizil, Andrei Broder, Evgeniy Gabrilovich, Vanja Josifovski, Bo Pang

検索連動型広告のCTR (click through rate)とオーガニック検索の検索結果のCTRの関係の調査(64000クエリ)

  • Navigational queryの場合: オーガニック検索の検索結果のCTRと広告のCTRは負の相関
  • Non-navigational queryの場合:検索連動型広告のCTRとオーガニック検索の検索結果のCTRは正の相関

検索連動型広告はオーガニック検索の検索結果と類似していた方が良いのか否かの調査 (similarity vs. diversity)

  • Navigational queryの場合: 検索連動型広告とオーガニック検索の検索結果の類似度が高くなればなるほど,広告のCTRが下がる
  • Non-navigational queryの場合: 広告とオーガニック検索の検索結果の類似度が高くなればなるほど,広告のCTRが上がる

2種類のタイプの広告

  • Responsive ads: ユーザのInformation needと明らかに適合性が高そうな広告
  • Incidental ads: ユーザのinformation needとは関連がなさそうな広告
    • Non-navigational queryにはincidental adsは向かない
    • Navigational queryには有効

感想:

検索エンジン会社は広告をクリックしてもらえるように工夫をしないと広告主からお金が取れない.だからユーザには広告をバンバンクリックしてもらいたいので,本当はオーガニック検索なんて無くして全部広告にしたいんだろうけど,そうするとユーザの印象が悪くなる.印象が悪くならないようにクリック確率が高い広告を出すという工夫は検索エンジン会社の醍醐味.

オーガニック検索との広告との関連性を弄ることでCTRが変わるってのはへぇーという感じだった.ユーザのinformation needをうまく考えていて面白いなぁと思った.

 

“The Anatomy of an Ad: Structured Indexing and Retrieval for Sponsored Search”
Michael Bendersky, Evgeniy Gabrilovich, Vanja Josifovski, Donald Metzler

背景: 検索連動型広告の仕組み

  • 基本的には(Bid keyword+広告内容)とquery とのrelevance

目的:

  • クエリと広告のマッチングを改善するために階層性があるメタデータに広告に持たせrelevance計算の性能を上げる
  • そのためのメタデータとそれを用いた広告のランキング関数を提案

感想

  • 正直全然分からなかった…

WWW2010メモ: Multimedia session

0
Filed under 学会

WWW2010,二日目の第一セッションはmultimediaセッションに.画像処理とか音声処理の話が出てくるのかなと思っていたが,

  • 一つ目の発表は伝統的なデータマイニング
  • 二つ目はメタデータ記述のためのフレームワーク設計
  • 三つ目はビデオ要約を作るためのtips

と,想像していたマルチメディアセッションとは違った.

Elena Zheleva (University of Maryland), John Guiver (Microsoft Research Ltd.), Eduarda Mendes Rodrigues (University of Porto), Nataša Milić-Frayling (Microsoft Research Ltd.)

 

“Statistical Models of Music-listening Sessions in Social Media”
Elena Zheleva (University of Maryland), John Guiver (Microsoft Research Ltd.), Eduarda Mendes Rodrigues (University of Porto), Nataša Milić-Frayling (Microsoft Research Ltd.)

目的:

  • オンライン音楽コミュニティ上のユーザの音楽再生傾向を考慮して曲をクラスタリング.

アプリケーション

  • プレイリストの作成,補完
  • 推薦システム等

曲のクラスタリング方法

  • データ:(ユーザ,再生した曲)の組
  • Softクラスタリング: LDAを適用
    • 文書にLDAを適用する例に対応させると,文書=ユーザ,  単語=曲
    • 潜在クラスの構成の仕方を二通り用意
      • Taste model: 潜在クラスとして”曲の嗜好”を考慮
      • Session model: 潜在クラスとして”曲の嗜好”と”セッション”を考慮
        # セッション: サイト上に曲の再生記録が残っておりセッション情報ももちろん取れる

評価

  • Perplexity(エントロピーのようなもの,低いほど良い)スコアで評価
  • 潜在クラスのパラメータを一つ余分に考慮したsession modelが最もperplexityが低い
    • 潜在クラスを増やしてもsession modelは安定して低い
  • クラスタリング結果を観察したところ「セッションを潜在クラスとして導入するとムードが考慮できる」と考えられる

 

“What are the Most Eye-Catching and Ear-Catching Features in the Video? Implications for Video Summarization”
Yaxiao Song (University of North Carolina at Chapel Hill), Gary Marchionini (University of North Carolina at Chapel Hill), Chi Young Oh (University of North Carolina at Chapel Hill)

背景:

  • ビデオの要約を作るのは大変.要約作成を自動化するために重要な要素を知る必要がある.
  • ニュースとかスポーツとか映画とかの要約はよく議論されるがinstruction videoはあまり議論されていない.

ゴール:

  • instruction videoの自動要約のためのキー要素について,映像と音声の観点から実際に人間が手作業で行ったビデオ要約作業から考察

知見:

  • 音声がない映像の要約を行う場合
    • 重要な視覚的要素: テキスト,引用,グラフ
  • 音声がある映像の要約を行う場合
    • 重要な視覚的要素: 人間の顔,風景
    • 重要な音声要素: 一人の人間が話している箇所,自然の音