WWW2010メモ: Multimedia session

Filed under 学会

WWW2010,二日目の第一セッションはmultimediaセッションに.画像処理とか音声処理の話が出てくるのかなと思っていたが,

  • 一つ目の発表は伝統的なデータマイニング
  • 二つ目はメタデータ記述のためのフレームワーク設計
  • 三つ目はビデオ要約を作るためのtips

と,想像していたマルチメディアセッションとは違った.

Elena Zheleva (University of Maryland), John Guiver (Microsoft Research Ltd.), Eduarda Mendes Rodrigues (University of Porto), Nataša Milić-Frayling (Microsoft Research Ltd.)

 

“Statistical Models of Music-listening Sessions in Social Media”
Elena Zheleva (University of Maryland), John Guiver (Microsoft Research Ltd.), Eduarda Mendes Rodrigues (University of Porto), Nataša Milić-Frayling (Microsoft Research Ltd.)

目的:

  • オンライン音楽コミュニティ上のユーザの音楽再生傾向を考慮して曲をクラスタリング.

アプリケーション

  • プレイリストの作成,補完
  • 推薦システム等

曲のクラスタリング方法

  • データ:(ユーザ,再生した曲)の組
  • Softクラスタリング: LDAを適用
    • 文書にLDAを適用する例に対応させると,文書=ユーザ,  単語=曲
    • 潜在クラスの構成の仕方を二通り用意
      • Taste model: 潜在クラスとして”曲の嗜好”を考慮
      • Session model: 潜在クラスとして”曲の嗜好”と”セッション”を考慮
        # セッション: サイト上に曲の再生記録が残っておりセッション情報ももちろん取れる

評価

  • Perplexity(エントロピーのようなもの,低いほど良い)スコアで評価
  • 潜在クラスのパラメータを一つ余分に考慮したsession modelが最もperplexityが低い
    • 潜在クラスを増やしてもsession modelは安定して低い
  • クラスタリング結果を観察したところ「セッションを潜在クラスとして導入するとムードが考慮できる」と考えられる

 

“What are the Most Eye-Catching and Ear-Catching Features in the Video? Implications for Video Summarization”
Yaxiao Song (University of North Carolina at Chapel Hill), Gary Marchionini (University of North Carolina at Chapel Hill), Chi Young Oh (University of North Carolina at Chapel Hill)

背景:

  • ビデオの要約を作るのは大変.要約作成を自動化するために重要な要素を知る必要がある.
  • ニュースとかスポーツとか映画とかの要約はよく議論されるがinstruction videoはあまり議論されていない.

ゴール:

  • instruction videoの自動要約のためのキー要素について,映像と音声の観点から実際に人間が手作業で行ったビデオ要約作業から考察

知見:

  • 音声がない映像の要約を行う場合
    • 重要な視覚的要素: テキスト,引用,グラフ
  • 音声がある映像の要約を行う場合
    • 重要な視覚的要素: 人間の顔,風景
    • 重要な音声要素: 一人の人間が話している箇所,自然の音