生成的情報検索時代における学生の振るまい方

学部学生向けに行っているオムニバス講義で,生成AIを用いた調べ物をするレポート課題を出題した.元ネタは(たしか京都大学だったと思うが)ソーシャルメディア上で見かけたアイデア.出題内容の詳細は以下の画像の通りなのだが,最終的な回答は学生ではなくChatGPTが生成することになっている.学生ができることは,ChatGPTへの質問の工夫,およびChatGPTが生成した回答の良し悪しの判断である.この課題のポイントは,ChatGPTが流暢な回答をしたとしても,ちゃんと自分の目で品質をチェックすることにある.

さて,採点結果なのだが,思っていた以上に無批判にChatGPTを使う学生が多かった.以下は学生に伝えたレポートの講評である(一部内容を修正/削除している).今の学生の振るまい,山本の意見に興味のある方は,以下を読んでください.


学生の回答傾向

提出された回答について,正答率は32.8%(67.2%は誤答)でした.

(正解か不正解かに関わらず)60% の学生はChatGPTへの質問に何らかの工夫を行っていました.一方,40%の人は,与えられた課題内容「合理的利他主義とは何ですか?」をそのままChatGPTに投げ込んでいました.以下は,学生の皆さんがChatGPTに質問を投げる際に行った工夫の分類です.

  • 工夫なし(設問内容をそのまま入力)
  • 参考文献や回答の出典の明示を指示
  • Chain of Thought(プロンプトエンジニアリングの1つ)を使った思考を指示
  • 「信頼できる根拠」の明示を指示
  • ウェブから「間違いのない情報」を探すよう指示
  • 「絶対に正しい回答」を提示するよう指示

提出された回答からは詳細な思考プロセスまで読み取れませんでしたが,正解にたどり着いた学生さんは,少なくともChatGPTに対して複数回質問したり,質問の工夫をしたり,ChatGPTが提示した文献を閲覧していた様子は見受けられました.

合理的利他主義とは何か?

合理的利他主義(rational altruism)とは,フランスの経済学者ジャック・アタリが提唱した比較的新しい概念です.一般に,利己主義は「自分の利益を優先」して行動しようとする考え方,利他主義は「他人の利益を優先」して行動しようとする考え方です.となれば,合理的な利他主義は,他人の利益を「合理的に」優先して行動しようとする考え方,あるいは他人の利益を優先して「合理的に」行動しようとする考え方などが思い浮かびますが,アタリが提唱した合理的利他主義はもう少し踏み込んでいます.

アタリは合理的利他主義を「利他的な行動を追求することが,実は長期的には自己の利益になると合理的に考え,行動しようとする考え方」と定義しました.アタリの合理的利他主義は,自己犠牲的な利他主義とは異なります.他者利益を追求した結果として自分にも利益が還元される — 合理的利他主義は,ある意味,合理的な「利己主義」とも言えます.

ChatGPTで調べると…

2025年7月9日現在,ChatGPT(GPT-4o model)に「合理的利他主義とは何ですか?」と質問すると,次のような回答が返ってきました.

合理的利他主義(英語: Effective Altruism)とは,限られた資源や時間の中で,他人の幸福や命を最大限に高めるために,理性と証拠に基づいて最善の方法を探し実行しようとする考え方や運動です.

尤もらしい回答に聞こえますが,違和感を感じる箇所かあります.それは,合理的利他主義の訳語が”effective altruism”となっている点です.Effective altruismは直訳すれば「効果的利他主義」です.合理的利他主義を直訳で英語にするなら”Rational altruism”とすれば良いはずです.

この違和感に気づいて,効果的利他主義やeffective altruism(あるいはrational altruism)でウェブ検索などを行い,いくつか文書にあたれば,上記ChatGPTの回答が合理的利他主義ではなく「効果的利他主義」(effective altruism)について言及していることが分かります.これに気づきさえすれば,ChatGPTに「効果的利他主義(effective altruism)ではなく合理的利他主義(rational altruism)を教えて」や「効果的利他主義と合理的利他主義の違いを教えて」と尋ねることで,(本来の正解である)合理的利他主義の定義を聞き出すことができるでしょう.

もっとも,今回の課題に関する知識に乏しい学生が,複数の説から独力で正解を見抜くことは難しいでしょう.しかし,日本語で書かれた平易な文章を理解することはできるでしょうし,日本語の出典を確認する過程で,「合理的利他主義」と「効果的利他主義」が別物であることに気付く力は十分に備わっているはずです.

生成AIで情報検索をする時代に必要な能力

ChatGPTをはじめとする対話型生成AIは,質問を投げかければ回答を手短にまとめてくれます.お願いすれば,より詳しい情報を提示してくれますし,文章を簡単にもしてくれます.一方,ChatGPTが登場する前に調べ物の定番ツールだったウェブ検索エンジンを用いた場合,欲しい情報を見つけるためにはウェブページを閲覧しなければなりません.うまく情報が見つけられなかった場合は検索ワードを修正する必要があります.1つのページでは情報が十分でない場合は,複数ページを閲覧して情報を集約する必要もあります.このようなウェブ検索に比べて,対話型生成AIは調べ物にかかるコストが圧倒的に小さいです.楽だし,融通が利くし,質問の意図もイイ感じにくみとってくれる対話型生成AIの便利さを知ってしまうと,「調べ物は生成AIでもういいよね」と思いたくなる気持ちも理解できます.

しかしながら,講義でも述べたように,生成AIの返す情報は常に正しいとは限りません(ハルシネーションの問題).また,仮に正しい回答を返すことができたとしても,正しい回答が複数存在する場合,生成AIはその一部しか提示しない場合もあります(情報の表示スペースの問題).回答生成時に利用した情報源の中では存在していた文脈情報も,AIが出力した回答からは失われてしまっている可能性もあります.このことを踏まえると,完璧に見える対話型生成AIの回答も,それを利用する人間の目で精査・吟味してみる必要があります.

今回特に印象的だったのは,生成AIに質問する際,「絶対に正しい回答(情報)を出力してほしい」という要求をした学生がいたことです.一人や二人ではありません.上で書いたように,生成AIは時に間違えます.人間もAIも「絶対に間違えないでほしい」と伝えたところで,間違えないことは「保証されません」.「間違えるな」と伝えても間違ってしまうことは往々にしてあります.

また,学生の中には「根拠となるような文献を提示してほしい」とお願いするも,実際には提示された文献に目を通していない(と思われる)人も散見されました.もし実際に文献を閲覧していたのであれば,効果的利他主義は合理的利他主義ではないことに気付くはずです.

これら2つの行動には,AIに対する過剰な信頼が暗黙的に反映されています.AIへの過剰な信頼からか,情報を精査・吟味するという行為も生成AIに完全に委譲されてしまっています.嘘をつく人に「嘘はつかないでね」と言えば嘘をつかれることはない — と考えるのは危険ですよね.生成AIに「間違えないで」と伝えて,回答をまったく吟味せず鵜呑みにするのは,短絡的です.生成AIが生成した間違えた回答を利用して損害を被っても,生成AIは責任を取ってくれません.責任を負うのは,最終的には人間です.

ウェブ検索エンジンを利用する際に人間が行っていた「情報の検索」「分析」「比較」「統合」のプロセスは,対話型生成AIを使えば一気にショートカットできます.人間に残されたプロセスは (1) (再)質問の生成(問いを考えること),(2) AIサービスが返す情報の評価,(3) 得られた情報を活用した新たな情報 or 意見の形成,となるでしょう.対話型生成AIは情報探索にかかる認知コストを大幅に減らすことはできますが,情報を活用した質の高い意思決定を行うには,人間がすべきことも依然として残っています.「情報の検索」「分析」「比較」「統合」が楽になった分,むしろ人間側に残されたプロセスの質を高めることが価値につながります.

そのために必要なことは,「質問する能力」「情報の価値を判断する能力」「知見を生み出す能力」といった”知的肺活量”を鍛えることです.大学の研究室(卒業研究 & 修士論文研究活動)は,”知的な筋トレ”ができる数少ない場所だったりします.意外かも知れませんが,大学卒業後,知的筋トレができる機会はほとんどありません.楽しく知的に生きるためにも,今後は生成AI時代に必要な知的スキルとは何かを意識し,知的肺活量を高めていってください.縁があってわたしの研究室に配属されることになったら,一緒に知的筋トレに励みましょう.

 

わたしの研究計画調書(2021FY-科研費-基盤研究B)

科研費セミナーなり申請書作成の書籍など申請書作成のためのヒントはあるものの,結局のところ一番役に立つのは申請書のサンプルである.

これまで色々な方の申請書を閲覧させていただいた.基盤研究Bのプロジェクトが終わったこともあり,役に立つかは分からないが,僕も自分の申請書(2021年度-科研費-基盤研究B)をここに公開する.

AIサービスと認知バイアス

スマートニュースメディア研究所に「AIサービスと認知バイアス」というタイトルで寄稿を行った.掲載文章のアーカイブのためにも,元原稿をここに残しておこうと思う.


AI技術の進化によって,情報を効率的に探し集めることができるようになりました.ショッピングサイトや動画視聴サイトでは,自分の興味にあったコンテンツが自動的に推薦されます.ウェブ検索エンジンは,検索キーワードからユーザの意図をくみ取って,関連するウェブページをリストアップしてくれます.最近では,生成AIの登場によって,文章で質問すると流暢な文章で回答をまとめてくれる対話型生成AIサービスが大流行りです.ChatGPTで有名なOpenAI社が2024年12月に発表した新モデルOpenAI o3は,あるテストで(人間の)博士号レベルを超える正答率を記録して,大きな話題となりました(参考資料1).

AIサービスは瞬時に情報を検索し,的確な回答を返してくれるように「見えます」.そのため,「調べ物ならサクッとAIに任せてしまえばいいのでは?」と思ってしまいそうですが,最新の生成AIでも時々誤った回答や偏見を含む回答をしてしまうことがあります(参考資料2).また,最新のAIの力を持ってしても正しい情報と誤った情報を見分けるのは難しく,ウェブ検索エンジンの検索結果にも信頼性の低い情報を含むページが含まれてしまうこともあります.そのため,健康など生活や人生に直結するような重要な話題ほど,AIの回答を参考にしつつも,最終的には自分自身で情報の質を冷静に判断し,情報の取捨選択や意思決定を行うことが必要となります.

ところで,「すべてをAI任せにせず,最後は人間が冷静に判断する」という考えは当たり前のように思えますが,そう簡単ではありません.意識してもできないことがあります.その理由の1つが,どんな人も持っている思考の癖「認知バイアス」です.認知バイアスはAIサービスの設計のあり方によって強化される場合があることも明らかになっています.この記事では,AIをうまく使いこなすために,認知バイアスとAIサービスの関係について述べたいと思います.

認知バイアス

認知バイアスの話をする準備として,人間の思考と意思決定プロセスに関する理論のひとつである「二重過程理論」について触れておきます.二重過程理論によると,人間の思考にはシステム1とシステム2と呼ばれる2種類のプロセスがあり,わたしたちはそれら2つを使い分けながら生活しています.システム1は経験に基づき,素早く無意識的に働く直感的な思考です.例えば,怒っている人の写真を見てすぐに「この人は何かに腹を立てている」と考えるのは,システム1の働きです.システム1は無意識に働くので,意識的な注意や努力が不要です.システム1は「ファスト思考」という名でも知られています.一方,システム2は頭を使って注意深く行われる論理的な思考です.計算問題や複雑な判断を伴う問題を解くときに用いられるのがシステム2です.システム2は注意を払ってじっくりと行う思考であるため,疲れます.システム2は「スロー思考」という名でも知られています(参考資料3).

わたしたち人間はシステム1とシステム2の2種類の思考を使い分けて生活しているのですが,普段はシステム1を使って行動をしています.信号が赤から青に変わった際に,「赤は停止で青は進めというルールがあり,今は赤から青に変わったから安心して車を進めることができるタイミングになった」というようなことをいちいち考えて行動しません.疲れますし,ゆっくり考えていては間に合いません.このように大抵のケースでは,わたしたち人間は自身の経験や常識に基づき,ショートカット的な思考であるシステム1を使って乗り切っています.一方で,予算内で必要な物をすべて買いそろえなければならないときなど,日常生活ではじっくり考えなければ答えが出ない場面にも時々出くわします.そんなときはシステム2の出番.システム1がシステム2を呼び出し,問題解決にあたります.

システム1とシステム2が適切に使い分けられていれば問題ありません.しかし,時々システム2を使うべき場面においてもシステム1が使われてしまい,間違った判断や偏った判断が行われてしまうことがあります.このように,判断が直感や固定観念にもとづき即決された結果,非合理的な結果になってしまう現象は「認知バイアス」と呼ばれています.これまで研究を通じて様々な認知バイアス現象が確認されているのですが,「確証バイアス」は代表的な認知バイアスの1つです.確証バイアスとは,ある事柄について調べている際に,自分にとって都合の良い情報を優先的に調べようとする認知バイアスです.例えば,ある選挙候補者に対してポジティブな印象を持っているときに,投票のための参考情報をネットで調べようとして,ついその候補者を推す情報ばかりを見てしまう.候補者の良し悪しを冷静に判断するには,良い面悪い面の両方を見た方がよいにもかかわらず… このような行動が典型的な確証バイアスの例です.

認知バイアスは日常の様々な場面で誰にでも起こりえる現象ですが,以下で触れるとおり,AIサービスの利用時には(AIの情報検索・生成能力よりも)AIサービスの情報の提示方法やサービス-ユーザ間のインタラクション(やりとり)のあり方によって,認知バイアスが強化されることが明らかになっています.

AIサービスと認知バイアス

AIサービスといっても様々なものがありますが,ここでは一般の方々がよく利用する「情報推薦サービス」「ウェブ検索エンジン」「対話型生成AI」の3つに焦点を当て,それら利用する際に発生する認知バイアスを紹介します.

ケース1: 情報推薦サービス

YouTubeなどの動画共有サービス,Xなどのソーシャルメディア,Amazonなどのショッピングサイトでは,視聴,クリック,いいねといったサービス上でのユーザの行動履歴を記録しています.蓄積された大量のデータにAI技術を適用することで,ユーザが興味をもちそうなコンテンツを推薦する技術はパーソナライゼーションと呼ばれています.パーソナライゼーションを利用すれば,ユーザは関心のあるコンテンツが自動的にオススメされるため,サービス内を探し回る必要はなく楽です.推薦されたコンテンツの中からより好きなコンテンツを選べば,AIはさらにあなたの好みを正確に学習します.

一見便利に見えるパーソナライゼーションですが,使い続けると自分の見たいコンテンツがより優先的に表示され興味がない情報はフィルターされるようになってしまいます.結果的に,自分の興味・関心しかない情報空間の中で孤立してしまいます.このようなパーソナライゼーション技術による情報孤立状態はフィルターバブル(参考資料4)と呼ばれています.趣味や娯楽分野でパーソナライゼーション技術を積極的に利用しても,興味・関心が強化されるだけでフィルターバブルに陥ったしても大きな問題にはならないでしょう.しかしながら,フィルターバブルはその性質上,確証バイアスを助長します.それゆえ,政治などを扱うメディアサービスでフィルターバブルが発生してしまうと,自分の興味や信念にマッチする情報しか入ってこなくなるため,視野が偏ってしまったり,偏見が強化される可能性があります.

フィルターバブルの問題は主にソーシャルメディアサービスの文脈で語られることが多いですが,近年の研究ではGoogle Newsなどのニュース検索サービスにおいてもニュース検索結果のパーソナライゼーションが行われており,フィルターバブルが発生する可能性が指摘されています(参考資料5-英語).

ケース2: ウェブ検索エンジン

今日,ウェブ検索エンジンはわたしたちの生活になくてはならない情報基盤となっています.玉石混淆のウェブ情報からユーザの検索意図に関連する情報を届けるために,ウェブ検索エンジンはAI技術を駆使し,様々な指標を組み合わせてウェブページの関連性・有用性をスコアづけしています(参考資料6).ここで重要なことは,ウェブ検索エンジンはあくまで関連性・有用性に基づきウェブページを相対的に順位づけしているに過ぎないことです.それゆえ,ウェブページに掲載された情報の質は,ユーザ自ら判断する必要があります.

それにも関わらず,ウェブ検索エンジンを使う際に,様々なウェブページの質を吟味して情報検索,意思決定を行える人は多くありません.この要因の1つとしてメディアリテラシーも挙げられますが,効率よくウェブページを検索するためのウェブ検索エンジンの「デザイン」も認知バイアスを発生させ,システム2の働きを阻害する要因になっています.

ウェブ検索エンジンでよく知られている認知バイアスの1つが「ポジションバイアス」です.ポジションバイアスは,検索エンジンの返す検索結果リストの上位ほどクリックされやすいという現象です.関連性・有用性に基づき順位づけされたリストの上位(先頭)がクリックされてやすいのは悪くないように思えます.しかしながら,関連性が低そうに見えるウェブページを検索結果リストの上位に配置しても,ユーザは本来の関連性に関係なく,上位にランクされたページが魅力的に見えるため,ついクリックしてしまうことが明らかになっています.またYueらが行った研究によると,検索結果の概要文内で検索ワードが太字でハイライトされていると,そのページのクリック率が高まるという「プレゼンテーションバイアス」の存在も報告されています(参考資料7-英語).ウェブ検索エンジンは有用な情報を効率良く集めるためのツールではありますが,ポジションバイアスやプレゼンテーションバイアスの影響もあり,システム2が駆動させるべき話題であっても,情報の質をあまり吟味せず,魅力的に見えるウェブページに飛びついてしまうケースも少なくありません.

ウェブ検索エンジンと確証バイアスについても,興味深いことが明らかになっています.Microsoft ResearchのR. Whiteらは,「チョコレートにカフェインが含まれているのか?」のようなYesかNoで答える疑問についてウェブ検索エンジンを使って調べたことがある人を大規模に集め,検索のモチベーションや検索方法について調査しました(参考資料8-英語).その結果,このようなYes/No型の疑問についてウェブ検索しようと思った時点で,多くの人はある程度自分の中で答え(信念)を決めており,それが正しいかを調べるためにウェブ検索を行っていることが明らかになっています.このことは,この種のウェブ検索を行う際に確証バイアスが発生する可能性が高いことを示唆しています.

そこで,Whiteらは事前に抱いている信念の度合いがウェブ検索行動や事後の信念に与える影響について別途調査を行いました.その結果,事前信念を持っている場合はウェブ検索を行っても信念が覆ることは稀で,むしろ信念が強化されるケースが多いこと,特に事前信念がポジティブな方向(期待する答えの方向がYes)に向いているときに,その傾向が強いことを明らかにしています.さらに,Yes/No型の質問に対して,ウェブ検索エンジンは(その正確さに関係なく)Yesの情報を含むウェブページを上位にランキングする傾向にあることも明らかにしています.Whiteらは,このランキング特性がウェブ検索時にポジティブ方向での確証バイアスを助長していると考察しています.

そこで,Whiteらは事前に抱いている信念の度合いがウェブ検索行動や事後の信念に与える影響について,別途調査を行いました.その結果,事前信念を持っている場合はウェブ検索を行っても信念が覆ることは稀で,むしろ信念が強化されるケースが多いこと,特に事前信念がポジティブな方向(期待する答えの方向がYes)に向いているときに,その傾向が強いことを明らかにしています.さらに,Yes/No型の質問に対して,ウェブ検索エンジンは(その正確さに関係なく)Yesの情報を含むウェブページを上位にランキングする傾向にあることも明らかにしています.Whiteらは,このランキング特性がウェブ検索時にポジティブ方向での確証バイアスを助長していると考察しています.

ケース3: 対話型生成AI

ChatGPTやGeminiといった対話型生成AIは,情報検索・意思決定の新たなツールとして注目を集めています.ウェブ検索エンジンと比べ,対話型生成AIを使う方が調べ物を早く終わらせることができ,提示される情報も質が高いと感じている人が多いようです(参考資料9-英語).

ウェブ検索エンジンは文章やたくさんのキーワードを用いて検索すると引っかかるページが少なる傾向にあるため,検索意図をそぎ落とし厳選された検索ワードを用いる必要があります.そのため,ユーザはウェブ検索エンジンを用いる際,検索意図を2,3個のキーワードで表現します.一方,対話型生成AIは文章を理解できるため,ユーザは質問やその背後にある意図を文章で伝えることができます.人間の意図を遠慮せずに豊かな表現で伝えられるようになったことは,技術的には素晴らしいことです.一方で,対話型生成AIを用いた情報検索や意思決定においては,このリッチな方法が確証バイアスを強化する可能性が示唆されています.

ウェブ検索エンジンを用いた情報検索において,ユーザの多くは自分の信念を支持するような情報を検索する傾向にあると述べました.同じ傾向は対話型生成AIを用いた情報検索でも見られます.ウェブ検索エンジンよりもやっかいなのは,対話型生成AIでは検索意図を豊かな文章で表現できるため,ユーザの「自分の信念を支持する情報が欲しい」という意図を対話型生成AIに伝えやすいことです.質問意図が明確に表現されるほど,対話型生成AIは関連する回答を生成しやすくなります.結果的に,対話型生成AIは「ユーザの信念を支持する情報」を提示し,ユーザはより積極的に「自分の信念を支持する情報」を探そうとする可能性があります.

この仮説を確認するために,ある研究者が興味深い実験を行いました.賛否が分かれるような話題について,実験協力者に対話型生成AIを用いて意思決定するよう依頼したところ,自分の信念を支持する情報を確認するための質問をした実験協力者の数は,ウェブ検索エンジンを用いた協力者よりも有意に多かったそうです(参考資料10-英語).さらに,研究者が生成AIの回答傾向を調整した上で再実験したところ,ユーザの信念に対して中立的あるいは否定的な回答を出力するように生成AIを調整しても先の傾向は変わらず,肯定的な回答を出力するように調整した場合は,ユーザはより「自分の信念を支持する情報」を求める質問をするようになることを明らかにしています.

生成AI技術によって,情報サービスは人間の言葉を理解し,流暢に対話することができるようになりました.その一方で,ユーザの意図に応えやすくなることで確証バイアスが助長されやすくなることも示唆されており,何らかの対策が必要です.

AIを手懐け,AIに応じる

AI技術はめざましい勢いで進歩していますが,誤りや偏りのない適切な回答を返すAIの研究開発は道半ばです.また,上で触れたように,AIサービスを利用する人間側に認知バイアスが発生することがあります.そのため,仮にAIが間違いのない情報を提示できるようになったとしても,AIサービスの使い方によっては熟慮が必要な場面にも関わらず,人は短絡的な判断や偏った判断をしてしまう可能性があります.AIサービスが目的達成を支援し,人間の幅を広げる道具であるならば,AIサービスを手懐け,「手になじむ」道具にする必要があるのではないでしょうか.そのためには,AI自身の性能向上だけでなく,認知バイアスなど人間の特性を踏まえた人間-AI間のインタラクションの設計も重要になると思います.同時に,人間側の考え方,振る舞い方もバージョンアップする必要もありそうです.対話型生成AIに象徴されるように,近年AIの能力は信じられないほど高まっており,人間と同様あるいはそれ以上のパフォーマンスを発揮する場面もあります.AIと人間の双方がよりパフォーマンスを発揮するには,AIに応じて人間側もこれまでとは異なる知恵の使い方を探すことも重要かも知れません.

箱ひげ図

2つのデータ分布から,同じ箱ひヒゲ図が現れる.

Again.2つのデータ分布から,同じ箱ひヒゲ図が現れる.

データはこちらから.以下のコードをPythonで実行すると,確かに3つのデータ分布から同じ箱ひげ図が生成されることが確認できる.最大値,最小値,中央値,Q1,Q3,平均値は限りなく同じである.

以下,上記コードの出力結果.

MoMM 2024 Best Paper Awardを受賞

2024年12月2〜4日に開催されたThe 22nd International Conference on Advances in Mobile Computing & Multimedia Intelligence (MoMM2024)にて発表した下記論文が,MoMM 2024 Best Paper Awardを受賞しました.

Momo Takeuchi, Yoshiyuki Shoji, and Yusuke Yamamoto: “Query by Trash: Encouraging Green Attitudes and Behavior through Eco-News Retrieval in Smart Trash Bins“, Proceedings of the 22nd International Conference on Advances in Mobile Computing & Multimedia Intelligence (MoMM2024), pp.70-85, Slovakia, Bratislava, December 2024 (Accepted Paper = 37%)

MoMMはモバイルコンピューティングとAIに関する国際会議です.今回発表した上記論文は,捨てられたゴミに応じて環境意識を高めるニュースを検索・提示するスマートなゴミ箱を提案し,それがゴミの投棄態度・行動に与える影響について分析を行った研究成果となります.

賞の名称

MoMM 2024 Best Paper Award

授与団体・学会

International Organization for Information Integration and Web-based Applications & Services (@WAS)

受賞者名

竹内萌々(株式会社クボタ),莊司慶行(静岡大学),山本祐輔(名古屋市立大学)

受賞日

2024年12月3日

日本データベース学会若手功績賞を受賞

2024年3月5日に開催された日本データベース学会年次総会にて,2023年度日本データベース学会若手功績賞を受賞しました.本賞は,データベース分野およびその関連分野における優れた研究実績に加えて,学会活動への多大な貢献が認められた若手研究者に贈られるものです.

賞の名称

日本データベース学会若手功績賞

授与団体・学会

一般社団法人 日本データベース学会

受賞者名

山本 祐輔(名古屋市立大学)

受賞日

2024年3月5日

関連リンク

日本データベース学会 受賞ページ

華やかなデータ分析の裏側:バッドデータとの奮闘

ビッグデータ分析の世界がとても華やかなものに思われている方がいらっしゃるかもしれません.しかし,実際のビッグデータ分析は極めて泥臭いものです.機械学習や数理モデリングといった「花形」分析技術を使うのは,データ分析プロセスの中でもほんの一部.データ分析の大半は,収集したデータの「前処理」に費やされます.


では,なぜデータの前処理に時間がかかるのでしょうか?よくある原因の1つは,分析のために用意したデータが「バッドデータだったから」です.バッドデータとは,コンピュータで分析するときに邪魔になるデータの俗称です.例えば,

  •  フォーマットや単位が異なるデータが混じっている(図1a)
  • 空値は想定されていないにもかかわらず,空欄になっているデータがある(図1b)
  • 1つのマスに複数のデータが入っている(図1c)

といったものが挙げられます.このようなデータが混ざっていると,データ分析中にエラーやおかしな結果が出たりして,有意義なデータ分析が行えなくなります.とはいえ,バッドデータも質を改善できれば,ビッグデータとして活かせる可能性はあります.ですので,分析者は投げ出したい気持ちを押さえながら,時間を割いてバッドデータをキレイにするのです.

ところで,人間には使いやすくても,コンピュータには扱いづらいデータも存在します.その例が,図2のようなExcelを方眼紙のように使って作られたデータです.この種のデータを大量に分析する場合,分析者の苦労がまた一つ増えることになります.なぜなら,どのマス目が何を意味しているのか,人間が逐一定義しなければ,コンピュータはデータの意味を理解できないからです.コンピュータは人間のように空気を読んでデータを見てはくれないのです.

ビッグデータ分析は「21世紀で最も素敵な仕事」と言われることもありますが,実はかなり地味な側面も持ちあわせているのです.