私のブックマーク:ウェブ検索と信憑性

 

ウェブは私たちの生活を支える重要な知識基盤となっています。一方で,フェイクニュースに代表されるように,ウェブ情報の信憑性が社会問題となりつつあります。本ブックマークでは,信憑性指向のウェブ情報アクセスシステムの実現する上で重要と思われる下記項目に関して,関連情報を整理・紹介いたします:

  • 情報信憑性の構成要素とユーザ側の意識
  • 情報信憑性の評価アルゴリズム
  • ウェブ情報の信憑性の判断支援システム
  • 信憑性判断と認知バイアス

研究トピック

信憑性の構成要素

情報の信憑性に関する研究は,1950年代から社会心理学分野で行われてきました。一般的に情報の信憑性は,客観的な特性である真偽(authenticity)もしくは正確さ(accuracy)と見なされる傾向にあります。社会心理学分野では,信憑性は「主観的な特性であり,受け手や対象とする情報によって「正しさ」の解釈が異なるもの」とされています。Carl Hovland氏をはじめとする多くの社会心理学者は,「コミュニケーションと説得」という文脈で,信憑性の構成要素や信憑性判断メカニズムに関する研究を行ってきました。これまでの研究によると,信憑性は以下の2要素から大きく影響を受けるということが明らかにされています。

  • 信頼性(trustworthiness):道徳性や優良性に関する要素(例:公正さ,偏見の有無)
  • 専門性(expertise):情報発信者が有する知識やスキルに関連する要素

社会心理学分野で信憑性に関する研究が始まった当時は,信憑性の対象として新聞等のオールドメディアに焦点が当てた研究がなされていました。2000年代に入ってからはウェブ情報の信憑性に焦点をあて,その構成要素を明らかにしようとする研究が行われています。UC Santa BarbaraのMiriam Metzger氏のサーベイ論文は,ウェブ情報の信憑性の構成要素を体系的に知るうえで貴重な資料です。

図書館学分野では,真偽が不確かなウェブ情報の信憑性を判断するためのチェックリスト指標が提案されてきました。代表的な指標はJim Kapounによって提案された指標です。Kapounは情報の信憑性を判断する際には,「正確さ(accuracy)」「権威性(authority)」「客観性(objectivity)」「鮮度(currency)」「網羅性(coverage)」の5指標に注意を払うよう提案しています。同様のチェックリストとして,UC Berkeley Libraryのチェック指標などが存在します。

ウェブ情報の信憑性に対するユーザ側の意識

どういったウェブ情報に対して信憑性を感じるか(あるいは感じないか)を大規模に調査した研究としてはStanford大学のB.J. Fogg氏の研究,UC Santa BarbaraのMiriam Metzger氏の研究があります。また,アドビシステムズ株式会社が行った調査(The State of Content: Rules of Engagement)によると,日本のミレニアル世代の約8割がウェブ上のコンテンツの信憑性を疑わない傾向にあることが明らかになっています。

特定のウェブ情報に焦点を絞って,ウェブ情報の信憑性に対するユーザの意識を調査した研究事例もあります。ウェブ検索エンジンに対するユーザの信憑性に関する研究としては,Nakamuraらが行った研究事例が挙げられます。

信憑性評価アルゴリズム

信憑性の高いウェブ情報を獲得を支援するために,様々な観点から信憑性評価アルゴリズムの研究開発がなされています。以下にアルゴリズムの例を挙げます。

情報検索,データマイニング分野では,代表的な問題設定としてtruth discovery問題が挙げられます。Truth discovery問題は,「海辺のカフカの作者は村上春樹」といったファクトの信憑性を,同じ主題(この例では海辺のカフカの作者)に対するウェブ上のファクト情報を集めたときに「ファクト間に矛盾がないか」を評価する問題です。この問題に対する基本的なアルゴリズムとして,2007年にTruthFinderアルゴリズムが提案されています。その後,latent credibility analysisアルゴリズムなど様々な改良アルゴリズムが提案されています。また,truth discovery問題から派生して,矛盾のあるファクトがウェブページ中に含まれる程度に着目することで,ウェブページの信憑性を評価するアルゴリズムも提案されています(論文)。Truth discoveryアルゴズムの動向については,Yaliang Li氏らのサーベイ論文に整理されています。

情報信憑性に関連する特定の観点に着目して,ウェブ情報を評価するアルゴリズムも提案されています。AdlerらはWikipediaの編集履歴に着目し,文が編集されずに残ってきた期間を信憑性の指標とし,Wikipedia記事中の文の信憑性を評価するアルゴリズムを提案しています。Suryantoらは,Yahoo! AnswerのようなコミュニティQAサイトに投稿された回答の信憑性の一観点として,回答内容の専門性を評価するアルゴリズムを提案しています。Dongらはウェブページに記載された時間およびウェブページにリンクが張られた時間から対象ページの生成時期を推定し,ウェブページの鮮度を評価する手法を提案しています。

こまかいことを考えずに,あらかじめ信憑性の高い情報と低い情報に関するデータを収集し,教師あり学習で信憑性の有無の分類器を構築するアプローチも多数行われています。例えば,Carlos CastilloらはTwitter上のツイート情報の信憑性判定アルゴリズムを提案しています。自然言語処理では,言語的特徴量からテキストの嘘情報を判定するアルゴリズムが多数提案されています(論文1, 論文2)。これらアルゴリズムの開発・評価の肝となるデータセットも開発されています。以下は,フェイクニュースの公開データセットの例です。

評価アルゴリズムを信憑性判断に有効活用するためには,アルゴリズムが対象としている情報の種類,および信憑性評価の観点を把握しておくことが重要です。

信憑性の判断支援システム

玉石混淆のウェブ情報の信憑性問題に対応するため,情報信憑性の評価アルゴリズムの開発が進められていますが,計算機による信憑性判定にも限界があります。それゆえ,信憑性判断の成否は最終的には人間側に委ねられることになります。そこで,最終的に人間がウェブ情報の信憑性判断を行うことを前提に,判断支援に焦点を絞ったシステムも提案されています。

Ennalsらが開発したDispute Finderは,閲覧中のウェブページ中のセンテンスに対する反証がウェブ上に存在する場合,そのセンテンスをハイライトすることで疑わしいセンテンスに注意を促すシステムです。Suhらは,Wikipedia記事の信憑性判断を支援するために,Wikipedia上の記事の編集履歴を可視化するシステムWikiDashboardを提案しています。Leongらは,疑わしいと思った知識に対して,証拠となるセンテンスを検索するためのシステムを提案しています。Sunらは特定の2つのトピックを比較するために適切なウェブページを検索するシステムComparative Web Searchシステムを提案しています。最後に手前味噌ですが,筆者はウェブ検索結果の信憑性判断支援を行うCowSearchシステムを提案しました。CowSearchは,信憑性判断の際に重要とされる指標に沿ってウェブ検索結果のスコアを可視化し,ユーザが重要視した信憑性評価軸に応じてウェブ検索結果を再ランキングするシステムです。

信憑性判断と認知バイアス

上で紹介したように,信憑性判断に有用と思われる情報を提示することで,人間による信憑性判断を支援するシステムの研究開発が進められています。この種の支援システムをユーザに有効活用してもらうには,”’意思決定における認知バイアス”’を考慮してシステムをデザインする必要があります。

認知バイアスとは直感的な思考によって生じる判断の歪みであり,ウェブ情報探索プロセスにおいても様々な認知バイアスが確認されています。例えば,Ieongらは特定のドメインに属しているウェブページなら信用できるとユーザが感じてしまうドメインバイアスの存在を明らかにしています。Lindgaardらは,見た目が綺麗なウェブページを信用してしまう見た目バイアスの存在を明らかにしています。また,Whiteらは検索トピックに対する事前信念と検索行動の関係について分析を行っており,ユーザが検索トピックに関して強い事前信念を持っている場合は,ウェブ検索・閲覧をして様々な情報を見たとしても,事前信念が修正されることは少ないことを明らかにしています(論文)。このような認知バイアスが発生してしまうと,上に記したような信憑性判断支援システムが提供されていたとしても,ユーザはそれを利用しない,あるいは自分の信念をネガティブな方向に補強するためにシステムを利用するということが起こりえます。

このような問題に対応するために,認知バイアスを抑制し,ウェブ情報の信憑性の精査行動を促進する情報インタラクションの研究が行われつつあります。例えば,Q. Vera Liaoらは,トピックに関する賛否について情報検索システムを用いて考えるタスクを行うときに,検索結果で表示される各文書の賛否を分類して提示するだけでは,検索者のトピックに対する先入観を解消するには至らず,逆にその先入観を強化する方向に働いてしまうことを明らかにしています。一方で,賛否の分類に加え,各情報の発信者の専門性を併せて提示すると,検索者は自身の先入観に反する情報にも目を向けるようになるということを実験的に明らかにしています(論文)。また,Yamamotoらはプライミング効果に着目して,ウェブ情報の信憑性に対する精査行動を促進する検索キーワード推薦手法「クエリプライミング」を提案しています。

国際会議・コミュニティなど

フェイクニュースが社会問題となっていることもあり,今でこそウェブ情報の信憑性に注目が集まっていますが,ウェブ情報の信憑性については2000年代初頭から研究が行われています。

情報検索,データマイニングの分野では,ウェブ情報の信憑性の評価・ランキングアルゴリズムの研究,ウェブ情報の信憑性を判断支援するシステムについて研究が行われています。この分野の重要な国際会議としては以下が挙げられます(2018年11月現在アクセス可能なリンクを掲載しています):

自然言語処理の分野では,デマ情報の検出アルゴリズムの研究が盛んです。この分野の重要な国際会議としては以下が挙げられます(2018年11月現在アクセス可能なリンクを掲載しています):

HCI分野では,ウェブ情報の信憑性判断を支援するシステムや情報の設計に関する研究も行われていますが,ウェブ情報の信憑性判断にかかるユーザの態度・行動の理解に関する研究も多く行われているのが特徴です。この分野の重要な国際会議としては以下が挙げられます(2018年11月現在アクセス可能なリンクを掲載しています):

またウェブが人間社会に与える影響を学際的に明らかにしようとする新しい研究分野であるウェブサイエンス分野でも,ウェブ情報の信憑性に関する議論がなされています。この分野ならではの要素として,社会学的な視点からウェブ情報の信憑性を研究する事例が比較的多いことが挙げられます。この分野の重要な国際会議としては以下が挙げられます:

おわりに

本稿では,「ウェブ検索と信憑性」をテーマに関連する情報を紹介しました。ウェブから信憑性の高い情報を獲得するための効果的なアプローチを検討するには,アルゴリズム,システム設計,人間理解といった観点から複合的に考えることが重要です。本ブックマークが,ウェブから正確な情報を得るための情報環境を実現する一助になれば幸いです。

DEIM2018口頭発表の資料をアップロード

2018年3月4-6日に福井県は芦原温泉で行われた第10回データ工学と情報マネジメントに関するフォーラム(DEIM2018)で、JST RISTEX「人と情報のエコシステム」プログラムに支援いただいている研究発表を行いました。発表題目は「批判的ウェブ情報探索リテラシー尺度の開発」です。

発表スライドをアップロードしましたので、ご興味・ご関心のある方はご覧ください。

ノスタルジックな当たり屋情報

連休をまったり過ごしていると、妻の職場から妻に電話がかかってきた。「浜松市に当たり屋集団が来ているから気をつけてください」とのことだった。てっきり仕事の電話かと思っていたのに、仕事とはまったく関係のない内容だったから拍子抜けだった。こんな内容をなぜわざわざ職場が連絡してくるのかに関しても違和感を覚えたが、いかんせん内容が胡散臭い。情報ソースについても不明。そもそもドライブレコーダーがある今日、当たり屋なんて仕事になるのか。

すぐさま浜松市ホームページや警察のホームページを見たが、何も情報はない。Twitterで検索してみると、「浜松市に当たり屋が来てるから気をつけて」的なツイートが散見された。危険なナンバープレートの一覧が記された怪文書の画像もアップされている。ますます胡散臭い。

ウェブ検索で当たり屋を調査してみた。どうやら昔からあるデマ情報だそうだ。80、90年代年代に出回ったデマらしい。案の定、怪文書の内容もよく似たものだった。なぜ、今このタイミングでこのデマ情報が流れるのか、発信源はどこだったのかだろうか。立命館大学サトウタツヤさんの調査によると、この当たり屋デマ情報は数年に一回程度発生しているそうだ(サトウタツヤさんのHPの見た目が良い。見た目で判断するな、というメッセージを勝手に受け取りました)。

今回の当たり屋情報が最終的にTrueかFalseなのかは分からないが、いつの時代も変わらず、人はデマっぽい情報に振り回されてしまうのかと思うと、どっと疲れた。これだけインターネットが発達しているのだから、すぐに調べられるはずなのに… やっぱり情報を読み解く力は向上していないのか。今も昔もそう変わらないのか。それでいて、インターネットの利用は拡大しているから、余計にタチが悪い。根深い、根深い。

追伸:
今朝浜松市のホームページを確認したら、「当たり屋情報については浜松市では把握していない」という通知が出ていた。

信頼性とコンピュータ

情報学の分野で情報の信憑性を調べていると、必ず名前が出てくるのはスタンフォード大学のB.J. Fogg氏。学生時代はFogg氏の論文や書籍を読んでは信憑性に関する理解を深めてきた。

信憑性あるいは信頼性に関する文献はいろいろある。このトピックに関する研究は、50年以上前に心理学やコミュニケーションの分野から始まった。一方、情報の信憑性やウェブサイトの信頼性に関しては、Fogg氏の研究にまず当たるのが良いと思う。どんな知見があるか手っ取り早く知りたい場合、Fogg氏の著作「実験心理学が教える人を動かすテクノロジ」を読むのが良いと思う。

以下は「実験心理学が教える人を動かすテクノロジ」の第6章「信頼とコンピュータ」を簡単にまとめたものである(一部、別のソースからの引用も入れている)。 Continue reading “信頼性とコンピュータ”

【Credibility for the 21st Century】6.「情報ソース = 組織」である場合

組織の信憑性(organizational credibility)

  • 会社や団体といった組織(organization)着目した情報ソースの信憑性に関する研究も行われてきた.
  • 組織を情報ソースとする信憑性研究では,顧客の態度や行動に影響を与える要因解明が行われてきた(Gass & Seiter 1999).
  • 広告やマーケティング分野の文脈では,企業の信憑性(corporate credibility),団体の信憑性(institutional credibility),広告主の信憑性(advertiser credibility),小売業者の信憑性(retailer credibility)が研究されてきた.
  • 企業信憑性 = 「顧客や投資家が企業の信頼性や専門性をどの程度信用するかの度合い」(Goldsmith, Lafferty and Newell 2000)
  • 組織の信憑性の背景には,メッセージというものは個人ではなく,むしろ長年の経験や情報を持つ複雑な組織構造から発信されるものである,という考え方がある.

Continue reading “【Credibility for the 21st Century】6.「情報ソース = 組織」である場合”

【Credibility for the 21st Century】5. 情報ソースの信憑性に係る様々な要素

様々な要素

  • 1960年代から1970年代の情報ソースの信憑性に関する研究では,メッセージの受け手に信憑性を感じさせる要因の解明に力点が置かれた.
  • 研究者の多くは,信頼性(trustworthiness)と専門性(expertise)が情報ソースの信憑性に係る2大要因であることを明らかにしたが,その他にも力強さ(dynamism)や落ち着き(composure),社会性(sociability)といったものも情報ソースの信憑性に影響があることを明らかにした(Berlo, Lemert, & Mertz 1969,Gass & Seiter 1999, Jurma 1981, McCroskey 1966, Perloff 1993, Whitehead 1968).
  • 情報ソースの信憑性の研究においては,メッセージの受け手に信憑性があると思われる話者は「専門能力あり,信頼感(正直さ,真っ直ぐさ)があり活気があり,落ち着きがあり,気立ての良い人」とされる.

Continue reading “【Credibility for the 21st Century】5. 情報ソースの信憑性に係る様々な要素”

【Credibility for the 21st Century】4. 情報ソースの信憑性

情報ソースの信憑性の定義

  • 情報ソースの信憑性の定義:「メッセージの発信する人間を信用するかに関する受け手側の判断」(O’Keefe 1990, Wilson & Sherrell 1993)
  • 情報ソースの信憑性に関する研究は1940年代に始まった.情報ソースの信憑性は説得力のある話者の特性として研究が進められた.
    • 信憑性は第2次世界大戦中に生まれた学問である.アメリカ合衆国政府は,大衆の戦争に対する支持を得るための方法として信憑性に着目.
    • Carl Hovland @Yale大学が「説得理論」の構築を目指し,コミュニケーションと態度変容に関する研究をスタート.

Continue reading “【Credibility for the 21st Century】4. 情報ソースの信憑性”

【Credibility for the 21st Century】3. 信憑性研究の歴史

歴史

  •  信憑性に関する研究は「説得プロセス」における要素として注目されて研究が始まった.
  • 当初は,個人や組織の説得に与える要因として情報ソースの信憑性(source credibility)に着目して研究が行われた.
  • 2番目の要因として注目されたのは,情報ソースから発信された「メッセージ自身の信憑性(message credibility)
  • 他にも,特定の情報媒体に着目して情報媒体の信憑性(media credibility)を相対的に分析するという試みも行われた.

Continue reading “【Credibility for the 21st Century】3. 信憑性研究の歴史”

【Credibility for the 21st Century】2. ウェブ情報の特徴

ウェブ情報の特徴1: ゲートキーパーの不足

  • 新聞や書籍,雑誌,テレビなどは,一定レベルの事実確認,内容のチェック,編集チェックを受けている.
  • 同様のチェックが,ウェブ情報に対して必ずしも行われているわけではない.
    • 「オンライン新聞サイトや有名なポータルサイトは内容のチェックを受けている」という声もあるだろうが,そういうサイトは広大なウェブ世界ではむしろ少数派.
    • ウェブ情報の大半は非公式な情報であり,どの程度内容の精査がされているのかは不明.
    • 内容チェックを受けなくても情報発信できるということが,正確な情報をウェブで発信しなければという社会的なプレッシャーを低減させる(Jonson and Kaye 1998)

Continue reading “【Credibility for the 21st Century】2. ウェブ情報の特徴”