華やかなデータ分析の裏側:バッドデータとの奮闘

ビッグデータ分析の世界がとても華やかなものに思われている方がいらっしゃるかもしれません.しかし,実際のビッグデータ分析は極めて泥臭いものです.機械学習や数理モデリングといった「花形」分析技術を使うのは,データ分析プロセスの中でもほんの一部.データ分析の大半は,収集したデータの「前処理」に費やされます.


では,なぜデータの前処理に時間がかかるのでしょうか?よくある原因の1つは,分析のために用意したデータが「バッドデータだったから」です.バッドデータとは,コンピュータで分析するときに邪魔になるデータの俗称です.例えば,

  •  フォーマットや単位が異なるデータが混じっている(図1a)
  • 空値は想定されていないにもかかわらず,空欄になっているデータがある(図1b)
  • 1つのマスに複数のデータが入っている(図1c)

といったものが挙げられます.このようなデータが混ざっていると,データ分析中にエラーやおかしな結果が出たりして,有意義なデータ分析が行えなくなります.とはいえ,バッドデータも質を改善できれば,ビッグデータとして活かせる可能性はあります.ですので,分析者は投げ出したい気持ちを押さえながら,時間を割いてバッドデータをキレイにするのです.

ところで,人間には使いやすくても,コンピュータには扱いづらいデータも存在します.その例が,図2のようなExcelを方眼紙のように使って作られたデータです.この種のデータを大量に分析する場合,分析者の苦労がまた一つ増えることになります.なぜなら,どのマス目が何を意味しているのか,人間が逐一定義しなければ,コンピュータはデータの意味を理解できないからです.コンピュータは人間のように空気を読んでデータを見てはくれないのです.

ビッグデータ分析は「21世紀で最も素敵な仕事」と言われることもありますが,実はかなり地味な側面も持ちあわせているのです.

独自ドメインでGmailからメールを送信する場合,DKIM設定が必要

独自ドメインでGmailからメールを送信する場合,DKIM設定が必要

新しい職場のメールを,自分のGoogle WorkspaceのGmailで読み書きできるようにした.うまく設定できているように見えたが,Gmailを使っている人にメールを送信すると,エラーが返ってくることに気付いた.エラーメッセージを見ると,使用しているドメインにSPFもしくはDKIMを設定しろと書かれている.

今までこんなケースはなかったので戸惑った.調べてみると,Googleがガイドを公開していた.この記事によると,

2022 年 11 月より、個人用 Gmail アカウントにメールを送信する新規の送信者は、SPF または DKIM を設定する必要

だそうだ.なりすましと迷惑メールを防ぐ仕組みらしい.まったく知らなかった.

原因が分かれば対策は簡単.迷惑メールと間違えられないようにするSPFやDKIMは新しい仕組みでもなく,Google Workspaceを使っている人の中にも大分前から対策をしてる人もいるよう.記事を参考に設定を済ます.やることは

  • Google WorkspaceのGmailの管理者設定でDKIMを有効化
  • ドメインの設定に指定されたtxtレコードを追加

するだけ.

設定後,テストメールを送ってみると,電子署名が付与されていることが確認された.多分これで問題解決.

わたしの研究計画調書(2018FY-科研費-基盤研究C(特設分野))

科研費セミナーなり申請書作成の書籍など申請書作成のためのヒントはあるものの,結局のところ一番役に立つのは申請書のサンプルである.

これまで色々な方の申請書を閲覧させていただいた.基盤研究Cのプロジェクトが終わったこともあり,役に立つかは分からないが,僕も自分の申請書(2018年度-科研費-基盤研究C(特設分野))をここに公開する.

ダウンロードはこちらから(一部のページは非公開).

落とされない申請書を作るための 「書き方以外」の要素

大学の研究支援関係の部署から科研費獲得セミナーで話題提供して欲しいとの依頼を受けた.書き方の話はURA時代に色々してきたので素材はあるのだが,書き方の話をしてもどうせよく似た話を聞き事になるだろうから今回は「書き方以外」の話をすることにした.せっかくなので,セミナーの資料をここで公開しておこうと思う.

大学教員の道に進む上で考えておくべき事

大学の就職支援関係の部署から,博士後期課程の学生向けの学内配布物に載せる記事の執筆依頼があった.お題は「アカデミアの道に進む上で考えておくべきこと」.紙面スペースが限られていたし,学内の博士後期課程学生にどぎついことを言うのも気が引けたので,以前ウェブにアップした「ポスドクとは何かと聞かれたら」よりも随分ソフトな文章になってしまった.内容も,一般的に良く知られていることなので,あまり目新しさもない.もう少しリアルに書いた方が良かったかな…

最終的に紙面にどう載るかは事務任せなので,オリジナル原稿をここに記しておく.

大学教員の道に進む上で考えておくべき事(ソフトな意見)

 

かけがえのない

「かけがえのない」という言葉は「かけがえ」がないという意味だろうが,そうであるならば「かけがえ」とはどういう意味でどんな漢字を書くのか,ふと気になった.

「かけがえのない」は代わりが利かないという意味だから,「かけがえ」は代替という意味だろう.そうならば,かけがえの「かえ」は「替え」だろう.では「かけ」はどんな漢字だろうか.思いつかない.

調べてみると,かけがえは「掛け替え」だそうだ.そしてその意味・語源は分からない,そうだ.

「かけがえのない」とは,意味がわからない言葉から成る言葉であった.

JCDL2020参加報告

2020年8月1日から5日までの間,オンラインにて開催された,ACM/IEEE Joint Conference on Digital Libraries (JCDL) 2020に参加してきました.JCDLは,デジタルライブラリに関する主要な国際会議です.一般的な計算機科学の国際会議との大きな違いは,研究者・技術者以外に図書館員の方も参加されているのが特徴的です.デジタルライブラリというと図書館をイメージしますが,JCDLでは情報検索やデータマイニング,HCI,デジタルヒューマニティーズ,インターネットプライバシなど,情報アクセスシステムの理論と実践にかかるトピックを幅広くカバーしています.

JCDL 2020は,当初6月中旬に中国は武漢で開催される予定でした.しかし,COVID-19の影響を受け,開催地がいったんは西安に変更され,最終的にはオンライン開催になりました.例年JCDLは北米,ヨーロッパ,アジアと世界中の様々な国から参加者が集まりますが,今年度は発表件数はFull paperが33件(採択率31%),Short paperが28件(採択率31%),ポスター・デモが48件とそれほど規模が大きくなかったため,実行委員会の配慮で地域ごとにセッションがまとめられました.そのおかげで,日中の時間帯に自身の発表が行うことができ,肉体的には楽でした.一方で,ヨーロッパや北米の方の発表の多くは,ヨーロッパ時間・北米時間の日中(日本時刻で深夜・早朝)に行われていたため,積極的に聴講することはなかなか難しかったです.オンラインでの学会開催の難しさを感じました.

本年度のJCDLは,以下のようなセッションがありました:Scholarly Communication,User in Search,Digital Libraries,Scholarly Knowledge,Document Classification,Natural Language Processing,Web Archive,Digital Humanities,Domain Specific Applications,Scholarly Data,Content Annotation,Search and Recommendation,Network and Learning,Neural Semantic Representation, Practitioner.ご覧の通り,幅広いトピックについて研究発表が行われたのですが,科学技術論文のコンテンツ・ネットワーク解析による知識獲得セッション(Scholarly X)が複数あることに目を引かれました.また,図書館員の方々が実践報告を行うPractitionerセッションにデジタルライブラリの学会らしさが感じられました.

私はUser in Searchというセッションで,下記発表を行いました:

Yusuke Yamamoto and Takehiro Yamamoto: “Personalization Finder: A Search Interface for Identifying and Self-controlling Web Search Personalization”. https://doi.org/10.1145/3383583.3398519

この研究では,ウェブ検索中のユーザがウェブ検索結果のパーソナライゼーションの影響を認識し,調整することを可能とする検索インタフェース“Personalization Finder”を提案しました.私の研究グループが事前に行ったユーザ意識調査では,ウェブ検索ユーザの多くは,意見の分極化の原因になりうるウェブ検索結果のパーソナライゼーションが政治トピックに対して行われることを懸念していることが明らかになりました.その一方,一般的なウェブ検索エンジンでは政治トピックに対する検索結果パーソナライゼーションが行われているにも関わらず,多くのユーザがそのようなパーソナライゼーションはあまり行われていないと思っていることも明らかになりました.この結果を踏まえ,自身が閲覧しているウェブ検索結果リストのうちパーソナライズされている結果をあえて可視化し,パーソナライゼーションによって逆に見えなくなってしまった結果を確認できるインタフェースを設計し,それらがユーザの検索行動に与える影響を分析しました.ユーザ実験の結果,特に政治トピックの検索時において,提案インタフェースを用いると,ユーザは客観的に情報を収集するべく,検索結果リストをより長く閲覧するようになり,より下位の検索結果を閲覧するようになることを明らかにしました.幸運なことに,本論文はBest Paper Awardに選ばれました.

JCDL2020に参加報告の執筆依頼をいただいた際,トップカンファレンスに採録されるための工夫・苦労した点について記してほしいとのご要望をいただきました.採録のための秘訣についてはこれまでも優れた研究者の方々が語ってくださっていますし,私自身はそれを語れるほどの経験はありません.ですので,大層なことは言えませんが,「不採択を恐れずトップカンファレンスに論文を投稿して,査読者から有益なフィードバックをもらうこと」は有効だと思います.

トップカンファレンスは査読者の質も相対的に高いため,論文を改善したり,研究をより良い方向に進めるために有益なフィードバックがたくさん得られます.実は今回の採択された論文は, ACM CHIという別のトップカンファレンスに投稿して不採択になった論文をブラッシュアップして再投稿したものです.レビューコメントは大変痛烈で,不採録判定による傷心状態で読むのは気が滅入ります.しかし,数日寝かせて読み直すと,どのコメントも鋭く的を得ているものばかりでした.それを改善すれば確実に研究が進展します.おかげさまで,レビューで指摘された穴を一個一個つぶしてアップデートした論文は,JCDL 2020に採択されました.不採録通知を受け取ることはショックですが,採択率からすると大抵のひとにとって不採録はデフォルトです.良質なレビューコメントをもらって論文と研究をアップデートし,めげずに投稿し続けることが,ターゲットとする国際会議に論文を通す近道だと,リジェクトの結果に凹んでは自分に言い聞かせています.

 

わたしは鼻があまりきかない.他の人が感じている匂いを感じられていないことはしばしば.自分の鼻のききが悪いことに気付いたのは,結婚して妻と生活するようになってからであった.

周りの人と同じ世界を認識していたつもりが,実はそうではなかったのである.とはいえ,鼻のききが悪いことに不自由はしていない.まったく匂いを感じれないわけではないし,匂いのもとと距離を詰めれば,それなりに匂いを感じることはできる.

自分の感じる匂いが果たして正しい匂いなのか,他の人が感じる「真」の匂いが一体どんなものか,気になることも多少はある.けれども,そのことに悲観はしていない.むしろ,受け取る嗅覚情報が他者とずれているにもかかわらず,これまで不自由も問題もなく生きてこられたことに驚きを感じるのである.