華やかなデータ分析の裏側:バッドデータとの奮闘

ビッグデータ分析の世界がとても華やかなものに思われている方がいらっしゃるかもしれません.しかし,実際のビッグデータ分析は極めて泥臭いものです.機械学習や数理モデリングといった「花形」分析技術を使うのは,データ分析プロセスの中でもほんの一部.データ分析の大半は,収集したデータの「前処理」に費やされます.


では,なぜデータの前処理に時間がかかるのでしょうか?よくある原因の1つは,分析のために用意したデータが「バッドデータだったから」です.バッドデータとは,コンピュータで分析するときに邪魔になるデータの俗称です.例えば,

  •  フォーマットや単位が異なるデータが混じっている(図1a)
  • 空値は想定されていないにもかかわらず,空欄になっているデータがある(図1b)
  • 1つのマスに複数のデータが入っている(図1c)

といったものが挙げられます.このようなデータが混ざっていると,データ分析中にエラーやおかしな結果が出たりして,有意義なデータ分析が行えなくなります.とはいえ,バッドデータも質を改善できれば,ビッグデータとして活かせる可能性はあります.ですので,分析者は投げ出したい気持ちを押さえながら,時間を割いてバッドデータをキレイにするのです.

ところで,人間には使いやすくても,コンピュータには扱いづらいデータも存在します.その例が,図2のようなExcelを方眼紙のように使って作られたデータです.この種のデータを大量に分析する場合,分析者の苦労がまた一つ増えることになります.なぜなら,どのマス目が何を意味しているのか,人間が逐一定義しなければ,コンピュータはデータの意味を理解できないからです.コンピュータは人間のように空気を読んでデータを見てはくれないのです.

ビッグデータ分析は「21世紀で最も素敵な仕事」と言われることもありますが,実はかなり地味な側面も持ちあわせているのです.

独自ドメインでGmailからメールを送信する場合,DKIM設定が必要

独自ドメインでGmailからメールを送信する場合,DKIM設定が必要

新しい職場のメールを,自分のGoogle WorkspaceのGmailで読み書きできるようにした.うまく設定できているように見えたが,Gmailを使っている人にメールを送信すると,エラーが返ってくることに気付いた.エラーメッセージを見ると,使用しているドメインにSPFもしくはDKIMを設定しろと書かれている.

今までこんなケースはなかったので戸惑った.調べてみると,Googleがガイドを公開していた.この記事によると,

2022 年 11 月より、個人用 Gmail アカウントにメールを送信する新規の送信者は、SPF または DKIM を設定する必要

だそうだ.なりすましと迷惑メールを防ぐ仕組みらしい.まったく知らなかった.

原因が分かれば対策は簡単.迷惑メールと間違えられないようにするSPFやDKIMは新しい仕組みでもなく,Google Workspaceを使っている人の中にも大分前から対策をしてる人もいるよう.記事を参考に設定を済ます.やることは

  • Google WorkspaceのGmailの管理者設定でDKIMを有効化
  • ドメインの設定に指定されたtxtレコードを追加

するだけ.

設定後,テストメールを送ってみると,電子署名が付与されていることが確認された.多分これで問題解決.

DEIM2023で最優秀インタラクティブ賞,インタラクティブ賞などを受賞

第15回データ工学と情報マネジメントに関するフォーラムDEIM2023にて発表した下記の研究成果について,プレゼンテーション賞,最優秀インタラクティブ賞,および優秀インタラクティブ賞を受賞しました.

学生プレゼンテーション賞

最優秀インタラクティブ賞

優秀インタラクティブ賞

HCI International 2023に論文が採択されました

ヒューマン・コンピュータ・インタラクションに関する大きな国際会議である HCI International 2023にて,以下の研究成果が採択され発表することが決定しました.

  • Yuki Wakatsuki and Yusuke Yamamoto: “Embedding Brainstorming Tasks in Twitter”, Proceedings of the 25th International Conference on Human-computer Interaction (HCI International 2023), Copenhagen, Denmark, July 2023.
  • Yuya Okuse and Yusuke Yamamoto: “Chatbot to Facilitate Opinion Formation in Web Search”, Proceedings of the 25th International Conference on Human-computer Interaction (HCI International 2023), Copenhagen, Denmark, July 2023.
  • Hiroki Ihoriya and Yusuke Yamamoto: “Crowdsourced Argumentation Feedback for Persuasive Writing”, Proceedings of the 25th International Conference on Human-computer Interaction (HCI International 2023), Copenhagen, Denmark, July 2023.

ポジションバイアスを緩和する手法に関する研究成果が情報処理学会論文誌に採択

情報検索の分野で知られているポジションバイアスを緩和する手法に関する以下の研究成果が,情報処理学会論文誌に採択されました.

庵谷 拓輝, 山本 祐輔: “損失回避バイアスを用いたスニペット表示によるレビュー検索結果のポジションバイアス緩和“, 情報処理学会論文誌データベース(TOD), 15(3), 7-19 (2022-10-13), 1882-7799

ACM GoodIT 2022に論文が採択されました

研究室で行った研究の成果として,下記の論文が The 2022 ACM International Conference on Information Technology for Social Good (GoodIT 2022) に採択されました.

  • Masaki Suzuki and Yusuke Yamamoto: “Don’t Judge by Looks: Search User Interface to Make Searchers Reflect on Their Relevance Criteria and Promote”, Proceedings of the 2022 ACM International Conference on Information Technology for Social Good (GoodIT 2022), Limassol, Cyprus, September 2022 (to appear).
  • Yusuke Shimizu, Tetsushi Ohki, and Yusuke Yamamoto: “Privacy-aware Snippets: Enhancing Assessment of Balance between Privacy Risks and Benefits in Web Search”, Proceedings of the 2022 ACM International Conference on Information Technology for Social Good (GoodIT 2022), Limassol, Cyprus, September 2022 (to appear).
  • Naoya Oda, Kim Jin Hyuk, and Yusuke Yamamoto: “Information Presentation Methods for Setting Achievable and Meaningful Goals on Fitness Apps”, Proceedings of the 2022 ACM International Conference on Information Technology for Social Good (GoodIT 2022), Limassol, Cyprus, September 2022 (to appear).

後日,詳細な書誌情報を掲載する予定です.

PyMCによる項目反応理論の実装する練習

項目反応理論(IRT: Item Response Theory)は,TOEFLなどのような試験の各設問の難易度,および回答者の能力を推測するためのモデルである.基本的な考え方は,回答者の能力と設問の難易度をパラメータとするロジスティック関数をある設問の正解確率と見なし,試験の回答状況は定義された正解確率をパラメータとするベルヌーイ分布に従う,というものである.

パラメータの推定方法は最尤推定法が一般的であるが,バージョン4にアップデートされたPyMCの練習をかねて,MCMCで項目反応理論のパラメータ推定をやってみた.

以下は,Gistに置いたPyMCによるコード例であるである.どうぞご笑覧ください(Github Gistコードへの直リンク).

DEIM2022最優秀インタラクティブ賞,優秀インタラクティブ賞を受賞

第14回データ工学と情報マネジメントに関するフォーラムDEIM2022にて発表した下記2件の研究成果について,最優秀インタラクティブ賞および優秀インタラクティブ賞を受賞しました.

最優秀インタラクティブ賞

村田百葉, 山本祐輔: 人工天啓: 悩みに応じた心に響く名言検索エンジン

優秀インタラクティブ賞

永野里佳奈, 山本祐輔: 芸術作品に興味を促すビジュアルストーリーの自動生成

最優秀インタラクティブ賞・優秀インタラクティブ賞は,インタラクティブセッションにて発表された研究のうち,優秀な発表に対して贈られる賞です.

第5期静岡大学若手重点研究者の称号を授かりました

このたび静岡大学学長から第5期静岡大学若手重点研究者の称号を授かりました.第5期静岡大学若手重点研究者の定義は以下の通りです(静岡大学ウェブサイトから引用)

研究実績,学術業績に優れ,本学の次代を担う研究者として目標が高く,独創性を持ち,新しい流れを起こす,意識の高い若手教員.で,各分野において科学研究費補助金等の外部資金獲得状況,著書・論文数及び知的財産(特許等)を,概ね40歳以下の教員の中から総合的に評価し,第5期は15名を選定.