Web系研究のために勉強した書籍群

いわゆるWeb系というのは研究フィールドのことを意味するので,特にコレといった技術を身につけなければWeb系研究じゃないよね,ってことはない.だからといって何も勉強しなくて良いという訳ではなく,研究テーマに応じて必要な技術というのを認識して自分で学んでいかねばならない.

ここでは僕がWeb系の研究を行う上で触れてきた本を挙げてみる.

 

学部生時代

言語と計算 (5) 情報検索と言語処理

徳永 健伸 (著), 辻井 潤一 (編集),東京大学出版会(出版社)

難易度: ☆

研究室に入ったときに博士学生の先輩に薦められた本.タイトルに”言語処理”という言葉が入っているが,自然言語処理の話が載っているわけではない.情報検索の概要の概要が俯瞰できて,情報検索とはなんぞやを全く知らない学生には良い入門書だと思う.テクニカルな内容は少ないので読みやすいが,内容は薄い.情報検索の評価尺度,情報検索のモデル,特徴ベクトルの作り方,情報検索プロセスくらいを読んだら十分かと思う.

 

情報検索アルゴリズム

北 研二 (著), 津田 和彦 (著), 獅々堀 正幹 (著) ,共立出版(出版社)

難易度: ☆☆

「情報検索と言語処理」と併せて紹介された本.この本の方が少しテクニカル,かつマニアックなトピック(情報検索の評価尺度,ベクトル空間モデルによる情報検索,文字列検索アルゴリズム,全文検索アルゴリズム)が選択されている.ベクトル空間モデルの章しか僕は読んでいない.潜在的意味インデキシングを真面目に勉強しようと思った時に読んだ最初の本.

「情報検索と言語処理」も「情報検索アルゴリズム」も確率的な情報検索アプローチについてほとんど触れられていない.よって,それを学びたい人は別の本を読む必要有り.

 

データベース・システムの原理

国井 利泰 (著), 大保 信夫 (著), J. ウルマン (著) ,日本コンピュータ協会(出版社)
難易度: ☆☆☆☆

データベース界の大御所 Ullman先生著の”Principles of Database Systems”の日本語訳.現在おそらく出版されていない?大学院入試にデータベースが出題されるということで本を探していたのだが,日本語書籍で良い本が見つからない.そこで色々調べてみるとこの本を絶賛している人が多かったのでなんとか入手.

翻訳版なので授業で習ったデータベース用語ではない用語が出てきて混乱したが,内容的には全く問題なし.すごーく内容が濃い割に説明は分かりやすい.データベースの理論が中心だが,たぶんこれ一冊持っておけばデータベースを一通り勉強するには事足りると思う.SQLとかいわゆる実用的な話に関しては載っていないが,そういうのはWebで逐一調べれば十分かと.

 

修士課程時代

Modern Information Retrieval

Ricardo Baeza-Yates (著), Berthier Ribeiro-Neto (著),Addison Wesley(出版社)
難易度: ☆☆☆

情報検索,データマイニングの超有名人Yahoo! Research labs @Barcelona のRicardo Baeza-Yates先生の著書.英語.情報検索とかWebマイニングの知識をもっと体系的に学びたいと思って日本語の本を探したが無かったので「だったら英語しかないか」ということで選んだのがこの本.後述する”Introduction to Information Retrieval”に比べて古い本だが,内容的には様々な情報検索モデル,教師あり機械学習,教師無し機械学習等,一通りのこと技術は学べる.英語もそんなに難しくない.ただし,様々なトピックを網羅的に扱っているため,突っ込んだ説明がもっと欲しいなと思うこともしばしばあった.

 

Mining the Web

Soumen Chakrabarti (著),Morgan Kaufmann(出版社)
難易度:☆☆☆

なぜか「やっぱりWebマイニングだよね,これからは」と意味不明なことを思っていた時期に読み始めた本.英語.”Modern Information Retrieval”は情報検索とデータマイニングの両方をターゲットにしていたが,こちらはよりWebマイニングという色が強い.Web検索,Webマイニングに関する機械学習の初歩(階層的クラスタリング,非階層的クラスタリング,ベイズ分類器,決定木,グラフマイニング)を洗いざらいしたい場合には良い本だと思う.Modern Information Retrievalと重複している内容に関してはこちらのほんの方が理論的にも突っ込んでいる気がする.修論提出の直前にこの本を読み始めてNaive Bayeseを使ってみたくなってしまい,修論に勝手に新しいトピックを加えたことは懐かしい思い出.

 

言語と計算 (4) 確率的言語モデル

北 研二 (著), 辻井 潤一 (著) ,東京大学出版会(出版社)
難易度: ☆☆☆

某研究室では「文書検索といえばベクトル空間モデル!」としか考えていない状況が嫌な時期があった.ベクトル空間モデルは扱いやすいが,確率的情報検索モデルよりもかっちりしていないのが嫌だった.ちょうどその頃「言語モデル (Language model by Bruce Croft)」という言葉を知って「それだ!」と思った時期があって読んでみたのがこの本.情報検索と言語処理と比べてかっちりしている.数式もたくさん出てくる.確率的情報検索,言語モデル(n-gram, 隠れマルコフモデル)をかじりたい人には入門書としては良いと思う.

言語モデルと聞くと”自然言語処理”と関連づけてしまいそうなのだが,いわゆる自然言語処理を勉強する場合はこの本だけでは不十分だと思う.最も深い統計的言語処理を生額人には”Foundations of Statistical Natural Language Processing“が良いかと.

 

ベイズ統計学入門

渡部 洋 (著) ,福村出版(出版社)
難易度: ☆☆☆

高校時代から統計学が大好きだったということに加え,ベクトル空間モデルのふにゃふにゃさに不満を持っていた僕.Naive Bayesを勉強した際にベイズ統計学に出会う.「頻度主義統計学に比べ,ベイズ統計って綺麗だし,これからはベイズ統計学だ!」ということでこの本を勉強し始める.非常にすごく分かりやすくベイズ統計学を学べる.(他のベイズ統計の本もそうなのかもしれないが)この本は頻度主義統計学でいう検定とかのトピックをベイズ流に解釈するとどうなるかの詳細な解説がなされており非常にためになる.僕の大好きな本の一つで,今でも分からなくなるとしばしば読み返す.

 

確率モデルによるWebデータ解析法 – データマイニング技法からe-コマースまで

Pierre Baldi/Paolo Frasconi/Padhraic Smyth (著), 水田 正弘/南 弘征/小宮 由里子 (翻訳) ,森北出版(出版社)
難易度: ☆☆☆☆

修士論文を提出し終わった後,生協の本屋をぶらぶらしてたら偶然見つけた本.Web検索,Webマイニングに関する多くのトピックを非常に詳しく解説しており,しかもタイトルにも”確率モデル”と現れているように理論的に説明することにこだわって関わっている.多くの教科書は最新の技術の解説はあまりなく,いわゆる教科書的なトピックの解説に終始していることが多いが,この本は出版された年までの最新研究までちゃんとウォッチしているところが凄い(しかも全て参考文献付き!).翻訳してくださった方々に感謝.読み進めるには骨が折れるが,しっかり読み切れば相当知識が付くと思われる.お薦めの本.

 

博士課程時代

Introduction to Information Retrieval

Christopher D. Manning (著), Prabhakar Raghavan (著), Hinrich Schuetze (著),Cambridge University Press(出版社)
難易度: ☆☆☆

2008年に出版された新しい書籍.タイトルの通り情報検索に焦点が当てられた本だが,最近出版された本ということでWeb検索に関しても触れられている.内容,難易度ともに”Modern Information Retrieval”に近いが,Webで講義資料のPDFファイルが配布されていることもあり,輪読に使われることが多いよう.某Web企業も輪読で利用しているようである.

 

パターン認識と機械学習 上・下 – ベイズ理論による統計的予測

C. M. ビショップ (著), 非常にたくさんの著名な日本人研究者(翻訳),シュプリンガー・ジャパン(出版社)
難易度: ☆☆☆☆☆

機械学習で超有名人であるChristopher M. Bishop先生のPattern Recognition and Machine Learning (PRML) の翻訳書.非常にボリュームが多い.しかしながらコンテンツは機械学習に関連するあらゆるトピック(クラスタリング,分類器,確率分布,回帰モデル,グラフィカルモデリング,確率過程,サンプリング等)が懇切丁寧に解説されており,機械学習を一通りきっちり学びたい方には最高の一冊になると思われる.ただし統計,線形代数,微積等,数学的な基本的な素養が要求されるので,数学好きじゃない人にとっては読み進めるのは苦労するかも.丁寧に数学的な解説がなされているので,粘り強く読めばきっと分かると思う.今でも何度も読み返す本.

 

Search User Interface

Marti A. Hearst (著),Cambridge University Press(出版社)
難易度: ☆☆

“Such as”を用いた知識抽出,Scatter/Gather,Facet検索で有名なUC BerkeleyのMarti A. Hearst先生の著書.この本は”検索”のためのユーザインタフェースに焦点が当てられており,非常にたくさんの例を用いて議論されている.個人的な事情により僕はこの本の一部を翻訳した.その際の感想はこちら.検索のためのユーザインタフェースについて書かれた書籍はほとんどないので,そういう意味では非常に貴重な本.ユーザインタフェースは専門でない人にとっては検索システム開発の最終段階に参考になりそう.ユーザインタフェースを専門にしたいという人はこの本を読んで色々考えてみてください.

 

学生・研究者のための 使える!PowerPointスライドデザイン 伝わるプレゼン1つの原理と3つの技術

宮野 公樹 (著) ,化学同人(出版社)

これはWeb研究を進めるために必要,というよりはあらゆる分野の人が対象となる書籍.この本は僕のプレゼン師匠である宮野先生が執筆されたプレゼンのデザインに関する原理原則に関する本.プレゼンに関する書籍は巷に溢れかえっているが,PowerPointの使い方,プレゼンの精神論,プレゼンの方法論に関する書籍が多く,デザインに関する書籍,特に具体例が掲載された本は少ない.そこで登場するのが本書.具体例ベースで進むのでぱっと見Tips集なのかと思われるかも知れないが,全ての例を通じて本書の冒頭で述べられている原理原則が貫かれている.

スライドの作り方で悩んでいる人はお奨め.例を眺めるだけでも一見の価値有り.


集合知プログラミング

Toby Segaran (著), 當山 仁健 (翻訳), 鴨澤 眞夫 (翻訳) ,オライリージャパン(出版社)
難易度: ☆

最近流行の”集合知”を掲げた書籍.コンセプトは「機械学習を用いて集合知をいじる」.プログラミングと書かれていることから分かるように,この本はいわゆる機械学習に関して教科書的な説明がなされている訳ではなく,機械学習のテクニックを実際にデータに適用してみることが本書の目的.

機械学習を”学習”する際に僕がぶち当たった問題は,「理論的に機械学習が分かっても実際に適用する方法が分からない」ということ.本書はPythonを用いて実際に機械学習をデータに適用する方法が色々載っているので,僕と同じような問題を抱えている方々は一読の価値はあるかと.