JCDL2020参加報告

2020年8月1日から5日までの間,オンラインにて開催された,ACM/IEEE Joint Conference on Digital Libraries (JCDL) 2020に参加してきました.JCDLは,デジタルライブラリに関する主要な国際会議です.一般的な計算機科学の国際会議との大きな違いは,研究者・技術者以外に図書館員の方も参加されているのが特徴的です.デジタルライブラリというと図書館をイメージしますが,JCDLでは情報検索やデータマイニング,HCI,デジタルヒューマニティーズ,インターネットプライバシなど,情報アクセスシステムの理論と実践にかかるトピックを幅広くカバーしています.

JCDL 2020は,当初6月中旬に中国は武漢で開催される予定でした.しかし,COVID-19の影響を受け,開催地がいったんは西安に変更され,最終的にはオンライン開催になりました.例年JCDLは北米,ヨーロッパ,アジアと世界中の様々な国から参加者が集まりますが,今年度は発表件数はFull paperが33件(採択率31%),Short paperが28件(採択率31%),ポスター・デモが48件とそれほど規模が大きくなかったため,実行委員会の配慮で地域ごとにセッションがまとめられました.そのおかげで,日中の時間帯に自身の発表が行うことができ,肉体的には楽でした.一方で,ヨーロッパや北米の方の発表の多くは,ヨーロッパ時間・北米時間の日中(日本時刻で深夜・早朝)に行われていたため,積極的に聴講することはなかなか難しかったです.オンラインでの学会開催の難しさを感じました.

本年度のJCDLは,以下のようなセッションがありました:Scholarly Communication,User in Search,Digital Libraries,Scholarly Knowledge,Document Classification,Natural Language Processing,Web Archive,Digital Humanities,Domain Specific Applications,Scholarly Data,Content Annotation,Search and Recommendation,Network and Learning,Neural Semantic Representation, Practitioner.ご覧の通り,幅広いトピックについて研究発表が行われたのですが,科学技術論文のコンテンツ・ネットワーク解析による知識獲得セッション(Scholarly X)が複数あることに目を引かれました.また,図書館員の方々が実践報告を行うPractitionerセッションにデジタルライブラリの学会らしさが感じられました.

私はUser in Searchというセッションで,下記発表を行いました:

Yusuke Yamamoto and Takehiro Yamamoto: “Personalization Finder: A Search Interface for Identifying and Self-controlling Web Search Personalization”. https://doi.org/10.1145/3383583.3398519

この研究では,ウェブ検索中のユーザがウェブ検索結果のパーソナライゼーションの影響を認識し,調整することを可能とする検索インタフェース“Personalization Finder”を提案しました.私の研究グループが事前に行ったユーザ意識調査では,ウェブ検索ユーザの多くは,意見の分極化の原因になりうるウェブ検索結果のパーソナライゼーションが政治トピックに対して行われることを懸念していることが明らかになりました.その一方,一般的なウェブ検索エンジンでは政治トピックに対する検索結果パーソナライゼーションが行われているにも関わらず,多くのユーザがそのようなパーソナライゼーションはあまり行われていないと思っていることも明らかになりました.この結果を踏まえ,自身が閲覧しているウェブ検索結果リストのうちパーソナライズされている結果をあえて可視化し,パーソナライゼーションによって逆に見えなくなってしまった結果を確認できるインタフェースを設計し,それらがユーザの検索行動に与える影響を分析しました.ユーザ実験の結果,特に政治トピックの検索時において,提案インタフェースを用いると,ユーザは客観的に情報を収集するべく,検索結果リストをより長く閲覧するようになり,より下位の検索結果を閲覧するようになることを明らかにしました.幸運なことに,本論文はBest Paper Awardに選ばれました.

JCDL2020に参加報告の執筆依頼をいただいた際,トップカンファレンスに採録されるための工夫・苦労した点について記してほしいとのご要望をいただきました.採録のための秘訣についてはこれまでも優れた研究者の方々が語ってくださっていますし,私自身はそれを語れるほどの経験はありません.ですので,大層なことは言えませんが,「不採択を恐れずトップカンファレンスに論文を投稿して,査読者から有益なフィードバックをもらうこと」は有効だと思います.

トップカンファレンスは査読者の質も相対的に高いため,論文を改善したり,研究をより良い方向に進めるために有益なフィードバックがたくさん得られます.実は今回の採択された論文は, ACM CHIという別のトップカンファレンスに投稿して不採択になった論文をブラッシュアップして再投稿したものです.レビューコメントは大変痛烈で,不採録判定による傷心状態で読むのは気が滅入ります.しかし,数日寝かせて読み直すと,どのコメントも鋭く的を得ているものばかりでした.それを改善すれば確実に研究が進展します.おかげさまで,レビューで指摘された穴を一個一個つぶしてアップデートした論文は,JCDL 2020に採択されました.不採録通知を受け取ることはショックですが,採択率からすると大抵のひとにとって不採録はデフォルトです.良質なレビューコメントをもらって論文と研究をアップデートし,めげずに投稿し続けることが,ターゲットとする国際会議に論文を通す近道だと,リジェクトの結果に凹んでは自分に言い聞かせています.

 

わたしは鼻があまりきかない.他の人が感じている匂いを感じられていないことはしばしば.自分の鼻のききが悪いことに気付いたのは,結婚して妻と生活するようになってからであった.

周りの人と同じ世界を認識していたつもりが,実はそうではなかったのである.とはいえ,鼻のききが悪いことに不自由はしていない.まったく匂いを感じれないわけではないし,匂いのもとと距離を詰めれば,それなりに匂いを感じることはできる.

自分の感じる匂いが果たして正しい匂いなのか,他の人が感じる「真」の匂いが一体どんなものか,気になることも多少はある.けれども,そのことに悲観はしていない.むしろ,受け取る嗅覚情報が他者とずれているにもかかわらず,これまで不自由も問題もなく生きてこられたことに驚きを感じるのである.

三重Go To Eatキャンペーンマップ

研究室の学生が浜松市のGo To Eatキャンペーンをやっているお店をまとめた地図を作っていた.それに触発されて,三重県版Go To Eatキャンペーンマップを作ってみた.データソースはこのサイト(公式の三重Go To Eatキャンペーンのウェブサイトからリンクされているが,ドメインが異なるが気にはなる…).

データをスクレイピングして,Google Mapsにマッピング.近所にキャンペーンをやっている店があるか,少しはわかりやすくなった.実家のまわりではキャンペーンをやっている店が少なかったのが残念.

Google Mapのサイト上で見るにはこちらのリンクを参照.

Zaim APIの痛いところ

資産管理のために,銀行口座や証券口座の残高変動のログを記録しようとZaim APIを触り始めた.PythonからZaim APIを利用し,取得したデータをGoogle Spreadsheetに記録し続ける,ということを想定していたのだが,痛いことに気付いた.Zaim APIで取得できるデータは「銀行口座」に限るようだ.証券口座のデータにはアクセスできない.

証券口座の商品の変動こそ記録に残しておきたかった. Zaimのアプリ本体では,銀行,証券,クレジットカードの種類に限らず,どれでもデータが見れるので,問題ないと思っていたのだが… 結局証券のウェブサイトをスクレイピングして… ということになりそう.

テレキャスター警察

とある方に,Twitterに「テレキャスター警察」というハッシュタグがあることを教えてもらった.色はバタースコッチもしくはサンバースト,ピックアップはシングルコイルのみを是として,それ以外のテレキャスターを「違法」として切っていくハッシュタグである.まったく知らなかった.

過去の投稿を眺めてみると,多種多様な驚きテレキャスターがたくさん掲載されている.ピックアップをハムバッカーに変えたテレキャスターなんて甘い方.中には「えん罪」じゃなかろうかというギターもあったり.なかなか楽しめるコンテンツだった.

52年製Fenderテレキャスターの配線

大学生のときに,Fender USA テレキャスター52年レプリカを購入した.そのギターについて,衝撃的な事実に気付いた.知っている人からすると,なぜ今それに気付くのかと思う内容であろう.

テレキャスターといえば,ジャキジャキとした音が魅力的なギター.山下達郎さん好きとしては,テレキャスターによるカッティングがたまらない.

ということで,あの音で演奏したくてテレキャスターを使うわけだが,購入したときから,あの音が出せなく悩んでいた.フロントピックアップの音がどうしても納得がいかない.なんとか音を近づけようと,弦を替えたりピックをかえたりアンプの音作りを変えてみたりと,いろんな工夫をしてきた.しかし,状況はまったく改善されず.ギターには個体差があるので,それが原因,それも個性だと受け入れてきた.

購入から10数年たった今日,問題の原因はコンデンサーではないかとふと思った.テレキャスターの高音ジャキジャキを活かすために,コンデンサに工夫を凝らすことが知られている.僕のギターもコンデンサをつけかえれば音が変わるのでは,そう思うに至った.

そこで,ギターの型番をちゃんと調べて,あらためて配線をしらべたところ,衝撃的な事実が判明.僕のもっている52年製テレキャスターは,よくあるピックアップセレクターとは全然異なる配線になっていたのである.普通は,3段階のセレクタであれば,

  • 一番左:フロントピックアップ
  • 真ん中:フロントとリアピックアップのミックス
  • 一番右:リアピックアップ

を使う設定になっている.ところが,52年製テレキャスターは,

  • 一番左:フロントピックアップ(トーンゼロ,トーン調整無効)
  • 真ん中:フロントピックアップ(トーン調整有効)
  • 一番右:リアピックアップ(トーン調整有効)

という設定なのである.フロントピックアップのもこもこした音はこれが原因であった.真ん中のピックアップセレクタの音が一番お気に入りを出していたのだが,まさにそれが僕が求めていた音が出る設定だったのである.

こんなことはテレキャスター好きからしたら常識かと思われるので,なんと恥ずかしいことか.購入時の説明書袋を開けてみると,「ビンテージタイプ配線」から「スタンダートタイプ配線」に戻す方法が書かれた紙が入っているし,変更のために必要となるコンデンサまでご丁寧に同封されている.

これに10何年間も気付かない馬鹿な僕.でも,謎が解けてすっきりした.

パンダコパンダ

高畑勲氏が監督,宮崎駿氏が脚本・原画等を手がけた作品に「パンダコパンダ」という作品がある.たまたまこの作品を見る機会を得た.

この作品の主題歌(ミミちゃんとパンダコパンダ),サビが大変キャッチーで中毒性がある.作品の内容は覚えていなくても,この歌のサビだけは耳に残っていた.パンダコパンダを見る機会を得たので,この主題歌をじっくり聴いてみたのだが,サビの歌詞が自分が思っていた歌詞と違ってショックを受けた.

昔からサビの歌詞は「パンダコパンダコパンダ」の繰り返しかと思っていた.作品のタイトルも「パンダコパンダ」だからだ.ところがアニメーションを見ながらサビをよく聴いてみると,「パンダ,パパンダ,コパンダ」が正解らしい.ややこしい.

確かに作中には,パン(子どものパンダ)の父親のような役割のパパンダというキャラクタが登場する.しかし,コパンダは登場しない.登場する子どものパンダはパンである.

このサビには納得がいかない.

LIFO

私が所有するパンツ集合を\(P=\{p_1, p_2, …, p_N\}\)とする.パンツの総数は\(N\)である.

あるとき,洗濯物をためてしまった.そのため,今自分が着ているパンツ\(p_i\)と唯一洗濯済みのパンツ\(p_j\)以外,他のパンツが同時に洗濯機に入ってしまったとする.

お風呂に入った後,唯一無二のパンツ\(p_j\)を着る.そして,使用済みのパンツ\(p_i\)を洗濯機に入れ,他のパンツと一緒に洗濯機を回す.洗濯済みパンツのストックが無くなってしまうが,幸い,洗濯したパンツは次の日のお風呂までには乾く.

洗濯済みのパンツが無くなったら危機である.この日から心を入れ替えて,毎日忘れずにパンツを洗濯することに心に決める.

ところで,我が家の洗濯済みパンツ入れは小さなカゴである.カゴに洗濯済みのパンツが積み上がっていく.一番最後に入れられたパンツが一番最初に取り出される.つまり,カゴは”Last in, first out”のスタック構造になっている.これを踏まえて,先の危機の行く末を考えてみる.


唯一無二のパンツ\(p_j\)に履き替えた私は,お風呂に入る前に着ていたパンツ\(p_i\)を含めた\(N-1\)枚の使用済みパンツを洗濯し,乾いたパンツをランダムにカゴに入れる.たまたまカゴの一番上に積まれたパンツを\(p_k\)とする.

次の日,お風呂に入る.お風呂を出た私はカゴの一番上にあるパンツ\(p_k\)を着て,使用済みパンツである\(p_j\)を洗濯する.このとき洗濯する(私の)パンツは\(p_j\)1枚である.洗濯し乾いたパンツ\(p_j\)をカゴに入れる(この日の活動をSTEP 1と呼ぶ).

また次の日,お風呂に入る.お風呂を出た私はカゴの一番上にあるパンツ\(p_j\)を着て,使用済みパンツである\(p_k\)を洗濯する.このとき洗濯する(私の)パンツは\(p_k\)1枚である.洗濯し乾いたパンツ\(p_k\)をカゴに入れる(この日の活動をSTEP 2と呼ぶ).

さらに次の日は,STEP 1に戻ることになる.そしてSTEP 2,STEP 1という流れが繰り返される.つまり,パンツは合計\(N\)枚あるにもかかわらず,私は2枚のパンツのみを毎日交互に履き替えていることになる.

ミニバッチ学習

及川賢治・竹内繭子作の「まるさんかくぞう」という絵本がある(出版社:文溪堂 ).上の写真のように,1ページごとに3つのオブジェクトの名前と絵本が描かれている.

  • さんかく,ぞう,まる
  • ぞう,ぞう,しかく
  • さんかく,まる,しかく

といった調子である.この構成が絵本の最初から最後まで続く.ちなみにこの本に登場するオブジェクトは「まる」「さんかく」「しかく」「ぞう」「とり」「かお」「ぼうし」「ふね」「ばす」「れもん」の10種類である.

子どもはこの絵本をめくる毎に3つのオブジェクトを見て,3つのオブジェクトが何かを読み手から音で聞く.オブジェクト認識のためのルールを学習するために,バッチサイズが3のミニバッチ学習を行うのである.

絵本の作者が各ページに配置するオブジェクトをどのように決めたのかは分からないけれども,各バッチには子どもが楽しみながらも効率よくオブジェクト認識ルールを学習できるよう,巧い具合にオブジェクトが選ばれている(ような気がする).

世間は深層学習が大流行りだが,子どもたちの学習が楽しく効果的に進むコンテンツを作るために,機械学習をうまく利用するといった事例があっても面白いと思う

熱量

三島由紀夫 vs 東大全共闘 – 50年目の真実」を観に出かけた.期待していたとおりの内容で,討論の全内容を聴けたわけではないが,2時間程度の時間で歴史と三島由紀夫の天才ぶり,ユーモアを楽しめた.内容はネタバレになるので書かないが,内田樹氏の語る三島コメントが印象的だった.

昔から全共闘の活動の歴史に興味を持っていた.当時の学生運動に参加していた学生の「熱量」に魅せられるのである(同時に,運動に関わらず冷めた目で運動を見ていた学生にも興味がある).なぜ当時の学生はあそこまでの社会変革に熱量を持てたのだろうか.もちろん時代背景もあるのだろうが,今の時代の学生(そして僕)は当時に負けないくらいの熱量を持っているだろうか.今の学生(そして僕)が当時にタイムスリップしたら,同じような熱量を持てただろうか.

熱を帯びなければならない.