Seabornで生成する画像にType 1のフォントを埋め込む

とある国際学会で発表する論文のカメラレディを提出したところ、「PDFファイルの中にType 3のフォントが埋め込まれているので、Type 1のフォントに置換して欲しい」との連絡があった。Type 1やらType 3やらの区別があることを初めて知った。該当箇所はSeabornで生成した画像中のフォントのようである。さくっと修正できるだろうと思っていたが、案外苦戦。

試行錯誤した結果、最終的には以下のコードを埋め込むことで解決。先人の知恵に感謝。

ACM CHIIR 2018 論文のプレプリント版を公開

ACM CHIIR 2018の論文のプレプリント版を公開しました。以下のURLからダウンロードが可能です。

ダウンロードURL

https://github.com/hontolab/preprint-paper/raw/master/content/chiir2018.pdf

書誌情報

Yusuke Yamamoto and Takehiro Yamamoto, “Query Priming for Promoting Critical Thinking in Web Search”, Proceedings of the 3rd ACM SIGIR Conference on Human Information Interaction and Retrieval (CHIIR 2018), New Jersey, USA, March 2018.

投稿を終えての振り返るGitHub & Two-way ANOVA

本格的な研究活動に復帰する前から暖めていたネタをやっとこさ国際会議論文にまとめた。WI2研究会の発表を経て、ゼロから実験計画を練り直し、再実験を重ねていたため、一時は〆切に間に合わないかもと思っていた。なんとか滑り込みで間に合った。とはいっても実験が練り切れなかったこともあり、採択されるかは怪しい。採否通知が来るまでは10月から始まる研究室運営に集中しようと思う。

さて、今回の論文では(提案内容とは別に)新しいことに2つ取り組んだ。一つはGitHubによる論文バージョン管理、もう1つはノンパラメトリックな2要因分散分析、である。多くの研究者にとっては今更な話題なのかもしれないが、個人的に新しい学びだったので、忘れないよう記録に残す。


GitHubによる論文バージョン管理

これまでGitHubを使ってはいたものの、一人で使用していたこともあり、ひたすらmasterブランチに修正したコードをpushするということしかしたことがなかった。当然「ブランチを切る」なんてことはしたことがなかった。前のバージョンとの比較を適宜行うなど、本当の意味でバージョンを管理する必要性を感じていなかったこともあり、プログラミングコードに関してはDropboxで作業をするというありがちなスタイルで作業をしていた。

それが今回は気が変わった。10月から立ち上がる研究室でこれからどうやって研究資産を管理していこうかと考え出したことがきっかけであった。

にも書かれているが、研究室での研究リソース管理にはGitが適してそうだ。ブランチを切り、修正・追加作業を行い、一通りの作業が終えたらプルリクエストを出し、確認次第masterブランチにマージ作業をする — この種の作業は、研究室における論文やコードの共有作成と相性が良さそうだ。問題はGitのうま味を理解しなければ、Gitの仕組みやコマンドなどを学ぶ気が起きないことである。今回の論文執筆では、気分転換がてらGitHubでバージョン管理してみることにした。

結果的には非常に良かった。なにより良かったのが、原稿を版という概念できちんと分けられること。これによって例えば共同研究者のコメントが入る前後でどんな変更があったか、英文校閲適用前後で何が変わったのか、などが明確に比較できるようになった。論文の修正・加筆点をIssueという形式で管理できるのも良かった。ブランチを切ったりマージしたりという作業も、仕組み理解すればそれほど抵抗のある作業でもなかった。共同作業、版の管理、研究データの蓄積をこんなにきっちりできるのに、なんで今まで使わなかったのか反省しました。第5期科学技術基本計画にも記されているように、近年研究データの管理・オープン化について盛んに議論されている。これからはgitを使ってもっと積極的に研究データやコードのアーカイブ、共有、公開していこうと思う。

ノンパラメトリックな2要因分散分析

今まで付け焼き刃でしか勉強してこなかったこと、ヒューマンファクター系の研究の経験が不足していることもあって、データ分析・論文執筆過程で大変な目にあったのが、このテーマ。1要因のノンパラメトリックな分散分析ならKruskal-Wallis検定やFriedman検定を使ったことがあったので、2要因になっても大丈夫、交互作用を考えるのが重要なんだよね!くらいの感覚でいたのが大間違いだった。

まず2要因分散分析のノンパラメトリック版というのは、Google検索でパッと調べても出てこない。英語で探してみると同じように悩んでいる人がいて、ResearchGateの議論(参考:Is there a non-parametric equivalent of a 2-way ANOVA?)を眺めていると”Aligned Rank Transform”なるテクニックがあることを発見。CHI2011で論文と発表されているテクニックなので、割と信頼できそう(参考:The Aligned Rank Transform for nonparametric factorial analyses using only ANOVA procedures)。これを使うと、正規分布に従わないデータをランク変換した後、通常のANOVAを適用できるそうだ。Rのパッケージも公開されているので、これをデータ分析に採用することにした。

次に困ったのが下位検定。2要因以上の分散分析を行った結果、交互作用が確認された場合、下位検定によって詳細に調べることが求められる。このあたりの知識も不足していたので、「心理統計学の基礎―統合的理解のために | 南風原 朝和(著)」を参考に勉強した。この書籍によると、交互作用の下位検定は、ある要因の各水準における別の要因の効果「単純効果(simple effect)」を調べることとされている。2要因分散分析後の単純効果の分析は、基本的にはある要因の水準を固定して1要因分散分析を行えばよい。しかし、一点だけ気をつけなければならないことある。それはF値の計算時に「2要因分散分析で用いた残差の平均平方(誤差項)を用いる」ことである。

さて、勉強しているときは気にしていなかったのだが、いざ計算するときにはたと気づいたことがあった。上記の話は、分散分析の各群に割り当てられたデータの個数がすべて等しいバランスデザインの場合に適応できる話だそう。データの割当数がバラバラなアンバランスデザインで行われた実験では、主効果どうし、あるいは主効果と交互作用効果が無相関ではなくなる。それゆえ、平方和の計算に工夫が必要となる(いわゆるタイプIやタイプIIIなどの計算)。調べてみると他にも工夫が必要だそうで、それについて様々な論争があるそうだ(参考:分散分析のノートの「プールされた誤差項」と「水準別誤差項」の節)。

2要因分散分析もAligned Rank Toolも付け焼き刃な勉強しかしていなかったため、ここから先どうやって交互作用の分析を進めるべきか戸惑った。単純主効果分析以外の別方法で下位検定ができないかと調べてみたもの、単純な多重比較で乗り切る方法も含め、いろいろな説が出てくる。しかも、どれが信頼できる分析方法なのかがわからない(参考:要因計画の分散分析において単純主効果検定に使用する誤差項の選択について)。〆切に追われていたこともあり、今回は「水準別誤差項」を使用した単純主効果分析で乗り切ることにした。

おわりに

毎度のことながら、学生の時にもっときちんと勉強しておくべきだったと反省した。一方でこういう時にしか勉強しないというのも真であるので、結果的には勉強できてよかった。誰か一緒に勉強してくれる人、募集します。

2017年度情報学方法論の受講者へ

静岡大学情報学部行動情報学科2年生のみなさん。本日のガイダンスによると、情報学方法論の授業は、いろいろな先生が情報学の方法論について60分間話をすることになっています。研究室を知ることも一応兼ねているそうですが、どんな話をするかは教員に任せられています。

そこでみなさんにお聞きします。どんな話を聞きたいですか?こちらのサイトにアクセスしてアンケートにお答えください。授業の参考にします。


候補トピック

研究室紹介:やまもとが行っている研究の一部を紹介します。

情報検索の仕組み:GoogleやYahoo!などのウェブ検索エンジン。どうやって情報を取得して、どうやって並び替えているのか?その仕組みについて解説します。

信頼できる情報システム:情報システムを有効に使ってもらうためには、情報システムの振る舞い、提供する情報に信頼性が備わっている必要があります。情報システムの信頼性とは何かについて解説します。

ヒューマンコンピューテーションとクラウドソーシング:データ集めや実験に協力してくれる人を探すのは大変ですよね。近年では、インターネットを通じて不特定多数の人に力を借りコンピューテーションを行う、クラウドソーシングという仕組みが注目されています。それを研究やサービス作りに活かす方法について解説します。

伝わる情報デザイン:同じような内容を伝えているはずなのに、伝えたいことが伝わらない情報デザインは何が悪いのか。プレゼンテーションのスライドのデザインから、デザイナでなくても伝わる情報デザインを行う方法を解説します。


アンケートサイトは以下:
https://goo.gl/forms/59Pxp6W30RRCFTg03

 

JST RISTEX「人と情報のエコシステム」に提案プロジェクトが採択されました

山本が主たる研究分担者として参画しているプロジェクトが、科学技術振興機構 社会技術研究開発センター(JST RISTEX)の「人と情報のエコシステム」領域で採択されました。

このプロジェクトでは、情報アクセスシステムを利用して情報を取捨選択し、批判的に意思決定をする能力を「情報アクセスリテラシー」を維持・向上する方法論の開発を目指します。

詳細は以下から確認できます:
http://ristex.jst.go.jp/hite/community/project000273.html

東北地区大学図書館協議会で招待講演を行いました

2017年9月22日(金)に、秋田市はぎわい交流館 AUにて開催された「東北地区大学図書館協議会 第72回総会」で招待講演を行ってきました。

依頼をいただいたときは、「図書館の専門家でもない僕がなぜ招待されるのか」と疑問に思いましたが、URAと研究者の両方の経験を持っているとのことでお声がかかったようです。

当日の発表資料は以下で閲覧することが可能です。多少なりとも図書館や大学の研究推進に参考になれば幸いです。

ノスタルジックな当たり屋情報

連休をまったり過ごしていると、妻の職場から妻に電話がかかってきた。「浜松市に当たり屋集団が来ているから気をつけてください」とのことだった。てっきり仕事の電話かと思っていたのに、仕事とはまったく関係のない内容だったから拍子抜けだった。こんな内容をなぜわざわざ職場が連絡してくるのかに関しても違和感を覚えたが、いかんせん内容が胡散臭い。情報ソースについても不明。そもそもドライブレコーダーがある今日、当たり屋なんて仕事になるのか。

すぐさま浜松市ホームページや警察のホームページを見たが、何も情報はない。Twitterで検索してみると、「浜松市に当たり屋が来てるから気をつけて」的なツイートが散見された。危険なナンバープレートの一覧が記された怪文書の画像もアップされている。ますます胡散臭い。

ウェブ検索で当たり屋を調査してみた。どうやら昔からあるデマ情報だそうだ。80、90年代年代に出回ったデマらしい。案の定、怪文書の内容もよく似たものだった。なぜ、今このタイミングでこのデマ情報が流れるのか、発信源はどこだったのかだろうか。立命館大学サトウタツヤさんの調査によると、この当たり屋デマ情報は数年に一回程度発生しているそうだ(サトウタツヤさんのHPの見た目が良い。見た目で判断するな、というメッセージを勝手に受け取りました)。

今回の当たり屋情報が最終的にTrueかFalseなのかは分からないが、いつの時代も変わらず、人はデマっぽい情報に振り回されてしまうのかと思うと、どっと疲れた。これだけインターネットが発達しているのだから、すぐに調べられるはずなのに… やっぱり情報を読み解く力は向上していないのか。今も昔もそう変わらないのか。それでいて、インターネットの利用は拡大しているから、余計にタチが悪い。根深い、根深い。

追伸:
今朝浜松市のホームページを確認したら、「当たり屋情報については浜松市では把握していない」という通知が出ていた。