Social tagsからのFacet抽出

共同研究でやろうとしていた課題は「Social tagsからのFacet(観点)抽出」ということだったので, UC Berkeleyに乗り込む前はなんとかそれをぼくの研究テーマである「信頼性・信憑性」に結びつけようと考えていた.考えていたのは,あるオブジェクトを評価するために必要な観点をどうやって求めるか.
で実際にUC Berkeleyに来てHearst先生と議論をするといつの間にか向こうのペースに乗せられて「Tagsから階層構造を作り出して,それから最終的に Facetを発見する」という流れになった.このやり方は僕の思惑とは全く逆アプローチで,どちらかというとボトムアップ的な攻め方.色々がんばって議論してみたのだが,英語が聞き取れないのと,英語が話しきれないことが理由でHearst先生の方向で行くことになってしまった.ぼやいていても仕方がないので,割り切ってさっさと終わらせてしまって,自分のやりたい方向に後で持って行こう,と考えるようにした.
方向が決まってからはあとはデータの収集と解析だけ.今週はそれをひたすらやっていた.変なところで僕の研究室の研究が役に立ったり,初めて特異値分解使ってみたりと,割と技術的には楽しんでいる.しかし,このままいってもTagsからの概念構造の抽出なんてありがちな話だし,Tagsで無くても情報抽出分野では絶対類似研究があるので,はやく脱出したい.たぶんHearst先生もそれは分かっているだろう.

しかし,収集データに偏りがあるので,解析を行っても出てきた概念関係がかなり一般的で無かったりする.今Librarythingという本のサービスを対象にしているのだが,収集データは人気の本1000冊に絞っている.この中のタグのほとんどがHarry Potterだったりするので, Fantasy→Harry Potterみたいな風になってしまう.これは問題.なんとかしよう.
Synonymsは取れそうだが,あとは階層をどうやって作るか.ベースはWordnetなのでこれをどう組み込むか.来週中にはけりをつけたいなぁ.

Leave a comment

Your comment