2019年度の卒業研究指導に向けて

DEIM2019をもって2018年度卒業生の卒論研究活動が終わった.また4月から2019年度生の卒論研究が始まる.

当然ではあるが,はじめて卒業研究に取り組む4年生は研究とは何か,卒業研究の合格基準は何か,そもそも卒業研究の目的は何かを知らない.昨年度は口頭では説明したがうまく理解してもらえたかどうか分からない.

この話は,学生には早い段階でしっかりと理解してもらうべきだと思い,「卒業研究を始める学部生へ」という記事を書いた.割ときつめに書いた箇所もあるが,この記事内容を踏まえた上で卒業研究に取り組んで欲しいな.

DEIM2019で指導学生プレゼンテーション賞を受賞

2019年3月4〜6日にかけて長崎県はハウステンボスで開催された第11回「データ工学と情報マネジメントに関するシンポジウム(DEIM2019)」にて,研究室で指導している学部生齊藤史明くんと中野裕介くんが学生プレゼンテーション賞を受賞しました.

齊藤くんは「文章表現の曖昧さ指摘によるウェブ情報精査の態度・行動促進」というテーマで,中野くんは「脚本の内容と構成要素に基づく映画印象推定」というテーマで研究発表しました.

DEIM2019で研究成果を発表

2019年3月4〜6日にかけて長崎県はハウステンボスで開催された第11回「データ工学と情報マネジメントに関するシンポジウム(DEIM2019)」にて,今年度の研究成果を発表しました.

発表内容は以下の通りです:

  • 梅田浩郎, 山本祐輔:笑えるウェブ情報検索のためのクエリ推薦第11回データ工学と情報マネジメントに関するフォーラム(DEIM2019), pp.C7-2, March 2019.
  • 齊藤史明, 山本祐輔:文章表現の曖昧さ指摘によるウェブ情報精査の態度・行動促進第11回データ工学と情報マネジメントに関するフォーラム(DEIM2019), pp.C2-2, March 2019 (学生プレゼンテーション賞).
  • 藤堂晶輝, 山本祐輔:情報の食わず嫌いを抑制する情報提示方法第11回データ工学と情報マネジメントに関するフォーラム(DEIM2019), pp.G6-3, March 2019.
  • 中野裕介, 山本祐輔:脚本の内容と構成要素に基づく映画印象推定第11回データ工学と情報マネジメントに関するフォーラム(DEIM2019), pp.I3-3, March 2019 (学生プレゼンテーション賞).
  • 堀内進次, 山本祐輔:珍スポット検索のためのランキング手法の検討第11回データ工学と情報マネジメントに関するフォーラム(DEIM2019), pp.P1-141, March 2019.
  • 村西克仁, 山本祐輔:飲食店レビュー情報の集合知分析と意思決定支援第11回データ工学と情報マネジメントに関するフォーラム(DEIM2019), pp.F3-1, March 2019.
  • ポチラッタナチャイクル・スパナット, 山本岳洋, 山本祐輔, 吉川正俊:文書の意見と信憑性がユーザの検索行動および信念の変化に与える影響の分析第11回データ工学と情報マネジメントに関するフォーラム(DEIM2019), pp.C2-4, March 2019 (学生プレゼンテーション賞).
  • マハルジャンラビン, 白石晃一, 山本岳洋, 山本祐輔, 大島裕明:話題提供を行うための独居家族との「気配」共有システム第11回データ工学と情報マネジメントに関するフォーラム(DEIM2019), pp.I6-5, March 2019.
  • 楊澤華, 山本祐輔, 山本岳洋, 神門典子, 大島裕明:博物館の展示物と見学者の興味を関連付ける情報の発見第11回データ工学と情報マネジメントに関するフォーラム(DEIM2019), pp.E4-3, March 2019.

私のブックマーク:ウェブ検索と信憑性

 

ウェブは私たちの生活を支える重要な知識基盤となっています。一方で,フェイクニュースに代表されるように,ウェブ情報の信憑性が社会問題となりつつあります。本ブックマークでは,信憑性指向のウェブ情報アクセスシステムの実現する上で重要と思われる下記項目に関して,関連情報を整理・紹介いたします:

  • 情報信憑性の構成要素とユーザ側の意識
  • 情報信憑性の評価アルゴリズム
  • ウェブ情報の信憑性の判断支援システム
  • 信憑性判断と認知バイアス

研究トピック

信憑性の構成要素

情報の信憑性に関する研究は,1950年代から社会心理学分野で行われてきました。一般的に情報の信憑性は,客観的な特性である真偽(authenticity)もしくは正確さ(accuracy)と見なされる傾向にあります。社会心理学分野では,信憑性は「主観的な特性であり,受け手や対象とする情報によって「正しさ」の解釈が異なるもの」とされています。Carl Hovland氏をはじめとする多くの社会心理学者は,「コミュニケーションと説得」という文脈で,信憑性の構成要素や信憑性判断メカニズムに関する研究を行ってきました。これまでの研究によると,信憑性は以下の2要素から大きく影響を受けるということが明らかにされています。

  • 信頼性(trustworthiness):道徳性や優良性に関する要素(例:公正さ,偏見の有無)
  • 専門性(expertise):情報発信者が有する知識やスキルに関連する要素

社会心理学分野で信憑性に関する研究が始まった当時は,信憑性の対象として新聞等のオールドメディアに焦点が当てた研究がなされていました。2000年代に入ってからはウェブ情報の信憑性に焦点をあて,その構成要素を明らかにしようとする研究が行われています。UC Santa BarbaraのMiriam Metzger氏のサーベイ論文は,ウェブ情報の信憑性の構成要素を体系的に知るうえで貴重な資料です。

図書館学分野では,真偽が不確かなウェブ情報の信憑性を判断するためのチェックリスト指標が提案されてきました。代表的な指標はJim Kapounによって提案された指標です。Kapounは情報の信憑性を判断する際には,「正確さ(accuracy)」「権威性(authority)」「客観性(objectivity)」「鮮度(currency)」「網羅性(coverage)」の5指標に注意を払うよう提案しています。同様のチェックリストとして,UC Berkeley Libraryのチェック指標などが存在します。

ウェブ情報の信憑性に対するユーザ側の意識

どういったウェブ情報に対して信憑性を感じるか(あるいは感じないか)を大規模に調査した研究としてはStanford大学のB.J. Fogg氏の研究,UC Santa BarbaraのMiriam Metzger氏の研究があります。また,アドビシステムズ株式会社が行った調査(The State of Content: Rules of Engagement)によると,日本のミレニアル世代の約8割がウェブ上のコンテンツの信憑性を疑わない傾向にあることが明らかになっています。

特定のウェブ情報に焦点を絞って,ウェブ情報の信憑性に対するユーザの意識を調査した研究事例もあります。ウェブ検索エンジンに対するユーザの信憑性に関する研究としては,Nakamuraらが行った研究事例が挙げられます。

信憑性評価アルゴリズム

信憑性の高いウェブ情報を獲得を支援するために,様々な観点から信憑性評価アルゴリズムの研究開発がなされています。以下にアルゴリズムの例を挙げます。

情報検索,データマイニング分野では,代表的な問題設定としてtruth discovery問題が挙げられます。Truth discovery問題は,「海辺のカフカの作者は村上春樹」といったファクトの信憑性を,同じ主題(この例では海辺のカフカの作者)に対するウェブ上のファクト情報を集めたときに「ファクト間に矛盾がないか」を評価する問題です。この問題に対する基本的なアルゴリズムとして,2007年にTruthFinderアルゴリズムが提案されています。その後,latent credibility analysisアルゴリズムなど様々な改良アルゴリズムが提案されています。また,truth discovery問題から派生して,矛盾のあるファクトがウェブページ中に含まれる程度に着目することで,ウェブページの信憑性を評価するアルゴリズムも提案されています(論文)。Truth discoveryアルゴズムの動向については,Yaliang Li氏らのサーベイ論文に整理されています。

情報信憑性に関連する特定の観点に着目して,ウェブ情報を評価するアルゴリズムも提案されています。AdlerらはWikipediaの編集履歴に着目し,文が編集されずに残ってきた期間を信憑性の指標とし,Wikipedia記事中の文の信憑性を評価するアルゴリズムを提案しています。Suryantoらは,Yahoo! AnswerのようなコミュニティQAサイトに投稿された回答の信憑性の一観点として,回答内容の専門性を評価するアルゴリズムを提案しています。Dongらはウェブページに記載された時間およびウェブページにリンクが張られた時間から対象ページの生成時期を推定し,ウェブページの鮮度を評価する手法を提案しています。

こまかいことを考えずに,あらかじめ信憑性の高い情報と低い情報に関するデータを収集し,教師あり学習で信憑性の有無の分類器を構築するアプローチも多数行われています。例えば,Carlos CastilloらはTwitter上のツイート情報の信憑性判定アルゴリズムを提案しています。自然言語処理では,言語的特徴量からテキストの嘘情報を判定するアルゴリズムが多数提案されています(論文1, 論文2)。これらアルゴリズムの開発・評価の肝となるデータセットも開発されています。以下は,フェイクニュースの公開データセットの例です。

評価アルゴリズムを信憑性判断に有効活用するためには,アルゴリズムが対象としている情報の種類,および信憑性評価の観点を把握しておくことが重要です。

信憑性の判断支援システム

玉石混淆のウェブ情報の信憑性問題に対応するため,情報信憑性の評価アルゴリズムの開発が進められていますが,計算機による信憑性判定にも限界があります。それゆえ,信憑性判断の成否は最終的には人間側に委ねられることになります。そこで,最終的に人間がウェブ情報の信憑性判断を行うことを前提に,判断支援に焦点を絞ったシステムも提案されています。

Ennalsらが開発したDispute Finderは,閲覧中のウェブページ中のセンテンスに対する反証がウェブ上に存在する場合,そのセンテンスをハイライトすることで疑わしいセンテンスに注意を促すシステムです。Suhらは,Wikipedia記事の信憑性判断を支援するために,Wikipedia上の記事の編集履歴を可視化するシステムWikiDashboardを提案しています。Leongらは,疑わしいと思った知識に対して,証拠となるセンテンスを検索するためのシステムを提案しています。Sunらは特定の2つのトピックを比較するために適切なウェブページを検索するシステムComparative Web Searchシステムを提案しています。最後に手前味噌ですが,筆者はウェブ検索結果の信憑性判断支援を行うCowSearchシステムを提案しました。CowSearchは,信憑性判断の際に重要とされる指標に沿ってウェブ検索結果のスコアを可視化し,ユーザが重要視した信憑性評価軸に応じてウェブ検索結果を再ランキングするシステムです。

信憑性判断と認知バイアス

上で紹介したように,信憑性判断に有用と思われる情報を提示することで,人間による信憑性判断を支援するシステムの研究開発が進められています。この種の支援システムをユーザに有効活用してもらうには,”’意思決定における認知バイアス”’を考慮してシステムをデザインする必要があります。

認知バイアスとは直感的な思考によって生じる判断の歪みであり,ウェブ情報探索プロセスにおいても様々な認知バイアスが確認されています。例えば,Ieongらは特定のドメインに属しているウェブページなら信用できるとユーザが感じてしまうドメインバイアスの存在を明らかにしています。Lindgaardらは,見た目が綺麗なウェブページを信用してしまう見た目バイアスの存在を明らかにしています。また,Whiteらは検索トピックに対する事前信念と検索行動の関係について分析を行っており,ユーザが検索トピックに関して強い事前信念を持っている場合は,ウェブ検索・閲覧をして様々な情報を見たとしても,事前信念が修正されることは少ないことを明らかにしています(論文)。このような認知バイアスが発生してしまうと,上に記したような信憑性判断支援システムが提供されていたとしても,ユーザはそれを利用しない,あるいは自分の信念をネガティブな方向に補強するためにシステムを利用するということが起こりえます。

このような問題に対応するために,認知バイアスを抑制し,ウェブ情報の信憑性の精査行動を促進する情報インタラクションの研究が行われつつあります。例えば,Q. Vera Liaoらは,トピックに関する賛否について情報検索システムを用いて考えるタスクを行うときに,検索結果で表示される各文書の賛否を分類して提示するだけでは,検索者のトピックに対する先入観を解消するには至らず,逆にその先入観を強化する方向に働いてしまうことを明らかにしています。一方で,賛否の分類に加え,各情報の発信者の専門性を併せて提示すると,検索者は自身の先入観に反する情報にも目を向けるようになるということを実験的に明らかにしています(論文)。また,Yamamotoらはプライミング効果に着目して,ウェブ情報の信憑性に対する精査行動を促進する検索キーワード推薦手法「クエリプライミング」を提案しています。

国際会議・コミュニティなど

フェイクニュースが社会問題となっていることもあり,今でこそウェブ情報の信憑性に注目が集まっていますが,ウェブ情報の信憑性については2000年代初頭から研究が行われています。

情報検索,データマイニングの分野では,ウェブ情報の信憑性の評価・ランキングアルゴリズムの研究,ウェブ情報の信憑性を判断支援するシステムについて研究が行われています。この分野の重要な国際会議としては以下が挙げられます(2018年11月現在アクセス可能なリンクを掲載しています):

自然言語処理の分野では,デマ情報の検出アルゴリズムの研究が盛んです。この分野の重要な国際会議としては以下が挙げられます(2018年11月現在アクセス可能なリンクを掲載しています):

HCI分野では,ウェブ情報の信憑性判断を支援するシステムや情報の設計に関する研究も行われていますが,ウェブ情報の信憑性判断にかかるユーザの態度・行動の理解に関する研究も多く行われているのが特徴です。この分野の重要な国際会議としては以下が挙げられます(2018年11月現在アクセス可能なリンクを掲載しています):

またウェブが人間社会に与える影響を学際的に明らかにしようとする新しい研究分野であるウェブサイエンス分野でも,ウェブ情報の信憑性に関する議論がなされています。この分野ならではの要素として,社会学的な視点からウェブ情報の信憑性を研究する事例が比較的多いことが挙げられます。この分野の重要な国際会議としては以下が挙げられます:

おわりに

本稿では,「ウェブ検索と信憑性」をテーマに関連する情報を紹介しました。ウェブから信憑性の高い情報を獲得するための効果的なアプローチを検討するには,アルゴリズム,システム設計,人間理解といった観点から複合的に考えることが重要です。本ブックマークが,ウェブから正確な情報を得るための情報環境を実現する一助になれば幸いです。

ドーナツとフィルター

静岡大学浜松キャンパス附属図書館にキャリアに関連した書籍を推薦する機会をいただいた。何を推薦してもよいとのことだったので、大阪大学ショセキカプロジェクトの「ドーナツを穴だけ残して食べる方法」を推薦した。

推薦文は150字で書くよう依頼があったので、もともと400字程度あった推薦文は削ることになった。せっかくなので、ここに圧縮前の推薦文を残すことにする。


ドーナツを穴だけ残して食べるには?くだらない、でも何故か気になるこの問題について、工学、数学、哲学などの専門家がそれぞれの立場からきわめて真面目に考える。これが本書の趣旨です。本書を読むと「面白いことに取り組むにはフィルターを外すこと」が重要ということに気付かされます。

ものごとを考えるとき、私たちは先入観というフィルターに縛れがちです。そのフィルターのせいで、より良い選択肢を逃してしまっていることもしばしば。進路の選択もその一例です。「情報学部に入ったら就職先はIT企業、職業はSE、プログラマ」 — こんなふうに選択肢を縛ってしまうことは非常にもったいない。皆さんが学んでいる知識やスキルは、思った以上に専門分野の外側で求められています。やりがいのある仕事、自分に合った働き方を見つけるためにも、一度「フィルター」を外してみてください。今まで考えてもみなかった仕事や働き方が見つかるかもしれません。

リサイクルヒソター

あるモノ(もしくはコト)xが(ある観点から見て)悪い状態に陥っている際、xの関与者のxに対する認識は様々である:

  1. xが悪い状態にあることを知らない
  2. xが悪い状態にあることを知っているが、どうしたらよいのか分からない(どうすることもできない)
  3. xが悪い状態にあることを知っているが、それが悪いとは思っておらず、状態を改善させるモチベーションはない

「リサイクルヒソター」の看板をかかげてリサイクルを受け入れている方は、どういう認識でいるのだろう。周りに間違っていることを教えてあげる人はいないのだろうか。教えてあげても修正しないのだろうか。

ここまで書いて、この看板は注目を集めるためにワザとやっている可能性を思いついた。注目を集めるほど人がいない田舎でこんなことをしてもあまり意味がないだろうから、注目集めの可能性は否定できるであろう。

ACM CIKM 2018に論文が採択されました

京都大学の山本岳洋さん、Yahoo! Japan研究所の藤田澄男さんとの共同研究 “Exploring People’s Attitudes and Behaviors toward Careful Information Seeking in Web Search” がACM CIKM 2018にフルペーパーにて採択されました。

本論文では、ウェブ検索エンジンのクエリログを用いて、批判的なウェブ検索ができるユーザの特徴を分析を試みています。

後日プレプリント版論文や発表資料をアップする予定です。

平成30年度基盤研究(C)(特設分野研究)の申請が採択されました

昨年10月に日本学術振興会 平成30年度基盤研究(C)(特設分野研究:情報社会とトラスト)に応募した申請プロジェクトが採択されました。研究課題名は「自律的・能動的な情報信憑性判断力を高める情報インタラクション」です。

本プロジェクトでは、ウェブ検索・閲覧を行うユーザが情報システムの力を借りつつも,最終的には自分自身で情報の信憑性(確からしさ)を判断できるよう,ユーザの信憑性判断能力を高め,自律的・能動的な信憑性判断を促進する情報インタラクション技術の開発を行う予定です。

固定観念:押して開かない蓋

注文していた単4電池が届いた。電池は上記のようなプラスチックケースに電池が納められていた。早速使いたかったのでツメを押して蓋を開けようとするが、まったく開かない。いかにも中華製のケースである。強く押さなければ開かないのだろうと思い、ありったけの力でツメを押すが開かない。中華製という理由で開けることを諦めた。

次の日、同じ商品を入手した学生にケースを開けられたかどうかを尋ねた。なんと、開けられたようだ。開け方を尋ねたところ、爪が引っかかっているように見える四角の輪のした部分を手前側に起こすことで開けられるとのことであった。開けにくいが、確かにその方法を試してみると、四角の上辺が軸となって、四角の輪が手前に動いた。

なんというBad User Interface!! と思えるが、それ以上に自分が他の方法を試さなかったこと、ツメを押して開ける開け方以外に方法はないと思っていたことにショックを受けた。

固定概念にハマっていることに気付くのは難しい。

「ファスト & スロー」14章のトム・W問題のベイズ推定について

研究室で輪読中の「ファスト & スロー」の14章で、直感(代表性ヒューリスティクス)を制御する方法としてベイズ推定を用いる話題が紹介されていた。同じ章で用いられている例題「トム・W問題」にベイズ推定を適用してみたときに基準率がどうなるかが解説されているのだが、学生から本の説明を読んでもよく分からなかったという報告を受けた。

淡々とベイズの定理を適用するだけだろうと思っていたのだが、たしかに問題文や解説文を読んで自分でベイズ推定をしてみようとしたが、何だかおかしい。小一時間考えてみたが、問題文の日本語訳が紛らわしい(誤訳?)ことがモヤモヤの原因だと分かった。来年以降も同じ事を学生に聞かれそうなので、僕なりの解釈を以下にまとめておこう。

トム・W問題について

トム・W問題とはある大学院生トム・Wに関する記述が与えられたときに、トムの専攻分野をコンピュータ科学を含むいくつかの分野から選択するという問題である。「ファスト&スロー日本語訳」で書かれているトム・Wに関する記述は以下の通り:

トム・Wはとても頭がよいが、創造性には欠ける。秩序や明晰さを好み、あらゆる細かい要素までしかるべき場所におさまっていて、万事がきれいに説明できるシステムを愛する。彼の書く文章はかなり単調で機械的であり、たまに陳腐な駄洒落じゃSFもどきの想像力が発揮されるにとどまる。彼は能力向上にはきわめて熱心である。他人のことにあまり関心がなく、同情心は薄いように見える。人付き合いを楽しむタイプではない。自己中心的ではあるが、倫理観はしっかりしている。(原文ママ)

この記述が与えられたときに、問題を与えられた人はたいていの場合、代表性ヒューリスティックを用いて意思決定を行ってしまい、その結果トムの専攻を「コンピュータ科学」と答えてしまう。合理的(統計的)判断を下すためにはベイズ推定を用いるのが一つのアプローチであるというのが本書の主張。以下は「ファスト&スロー日本語訳」でのベイズ推定アプローチに関する記述である:

ベイズ・ルールは、事前確率(本章の例では基準率がこれに該当する)に証拠の診断結果(相反する仮説が実現する見込み)を加味する手順を定めている。たとえばあなたは、大学院生の3%(基準率)がコンピュータ・サイエンス専攻だと考えているとしよう。そしてトム・Wの人物描写(=証拠)を読んだ後に、コンピュータ・サイエンス専攻の可能性は他分野よりも4倍高いと考えたとする。するとベイズ・ルールにより、トム・Wがコンピュータ・サイエンス専攻の確率(事後確率)は11%になる(原文ママ)。

問題の問題

脚注ではオッズや尤度比を用いた解説が書かれているのだが、愚直にベイズの定理を使って解くのがよいと思ったので、その方法で考えてみる。今、
* θ: 大学院生がコンピュータ科学を専攻しているという事象
* ¬θ: 大学院生がコンピュータ科学を専攻していないという事象
* D: トム・Wの人物記述(人となり)情報が得られたという事象
とする。ベイズの定理によって、トム・Wに関する人物記述が得られたときにトム・Wがコンピュータ科学を専攻していると思われる確率P(θ | D)は以下となる:

$$ P(\theta | D)   =   \frac{P(D | \theta)P(\theta)}{\sum_{\theta} P(D | \theta)P(\theta)} =  \frac{P(D | \theta)P(\theta)}{P(D | \theta)P(\theta) + P(D | \overline{\theta})P(\overline{\theta}) } $$

以上と問題文を対応させていけば解けると思っていたが、問題は尤度(P(θ | D))である。脚注の解説を読むと、「トム・Wの人物描写(=証拠)を読んだ後に、コンピュータ・サイエンス専攻の可能性は他分野よりも4倍高いと考えたとする」という箇所が尤度に関する情報を扱っているようなのだが、これって何を言っているのか?これは尤度だろうか?僕にはこの説明は尤度でなく事後確率の説明をしているようにしか見えない… 翻訳前の文章を見て悩みが解決した。この箇所に関する元の文章は以下の通り:

… and you also believe that the description of Tom W is 4 times more likely for a graduate student in that field than in other fields, then …

これを読むと、「トム・Wの人物描写(=証拠)を読んだ後に、コンピュータ・サイエンス専攻の可能性は他分野よりも4倍高いと考えたとする」ではなく、「あるコンピュータ科学専攻の学生にトム・Wの人物描写が当てはまる確率は、コンピュータ科学以外を専攻しているある学生に対してトム・Wの人物描写が当てはまる確率の4倍である」と書いてある。これならば尤度を計算できそう。僕が当初考えていた変数設定を使うと、上記英文は

$$P(D | \theta) : P(D | \overline{\theta}) = 4:1$$

となるので、ベイズ推定ができそう。

ベイズ推定によるトム・W問題の事後確率推定

これで準備が整った。問題設定を数式で表現すると、以下のようになる。

  • 大学院生の3%(基準率)がコンピュータ・サイエンス専攻だと考えている:P(θ | D)=0.03
  • あるコンピュータ科学専攻の学生に対してトム・Wの人物描写が当てはまる確率は、コンピュータ科学以外を専攻しているある学生に対してトム・Wの人物描写が当てはまる確率の4倍である: P(D | θ) : P(D | ¬θ) = 4:1

あとは、ベイズの定理に上の式を使う。

$$ P(\theta | D)   =   \frac{P(D | \theta)P(\theta)}{\sum_{\theta} P(D | \theta)P(\theta)} =  \frac{P(D | \theta)P(\theta)}{P(D | \theta)P(\theta) + P(D | \overline{\theta})P(\overline{\theta}) } $$

$$  =  \frac{0.03 \cdot P(D | \theta)}{0.03 \cdot P(D | \theta) + 0.97 \cdot P(D | \overline{\theta})} $$

$$  =  \frac{0.03 \cdot P(D | \theta)}{0.03 \cdot P(D | \theta) + 0.97 \cdot 0.25 \cdot P(D | \theta)} = 0.11$$

これで基準率(事前確率)3%でトム・Wの人物描写を見たら、事後確率が11%になり、基準率が3%から11%に修正されたと言える。めでたしめでたし。