ビッグデータ分析の世界がとても華やかなものに思われている方がいらっしゃるかもしれません.しかし,実際のビッグデータ分析は極めて泥臭いものです.機械学習や数理モデリングといった「花形」分析技術を使うのは,データ分析プロセスの中でもほんの一部.データ分析の大半は,収集したデータの「前処理」に費やされます.
では,なぜデータの前処理に時間がかかるのでしょうか?よくある原因の1つは,分析のために用意したデータが「バッドデータだったから」です.バッドデータとは,コンピュータで分析するときに邪魔になるデータの俗称です.例えば,
- フォーマットや単位が異なるデータが混じっている(図1a)
- 空値は想定されていないにもかかわらず,空欄になっているデータがある(図1b)
- 1つのマスに複数のデータが入っている(図1c)
といったものが挙げられます.このようなデータが混ざっていると,データ分析中にエラーやおかしな結果が出たりして,有意義なデータ分析が行えなくなります.とはいえ,バッドデータも質を改善できれば,ビッグデータとして活かせる可能性はあります.ですので,分析者は投げ出したい気持ちを押さえながら,時間を割いてバッドデータをキレイにするのです.
ところで,人間には使いやすくても,コンピュータには扱いづらいデータも存在します.その例が,図2のようなExcelを方眼紙のように使って作られたデータです.この種のデータを大量に分析する場合,分析者の苦労がまた一つ増えることになります.なぜなら,どのマス目が何を意味しているのか,人間が逐一定義しなければ,コンピュータはデータの意味を理解できないからです.コンピュータは人間のように空気を読んでデータを見てはくれないのです.
ビッグデータ分析は「21世紀で最も素敵な仕事」と言われることもありますが,実はかなり地味な側面も持ちあわせているのです.