ビッグデータの本質はデータの大きさではない

Leica M7, 1.4/50 Summilux, RDP III
@Griffith Observatory, Los Angels, CA

残念なことに、全く忘れていて風呂に入っていたのだが、期せずして先日取材を受けたNHKスペシャルの「医療ビッグデータ」に、先ほど何秒か登場していたようだ。

それでそのリアルタイム検索結果 *1を見ていたのだが、そこで扱われていたデータがビッグデータかどうかというツイートが結構な量であることに驚いた。ビッグデータの特徴として3V（Volume, Variety, and Velocity）と言った言葉が広まってしまっているせいもあるだろう。（自分も時たま使ってしまうので今回反省している。）

この方々の気持ちはわかるが、このブログの読者の方々ならお気付きの通り、今起こっている変革の本質はデータが巨大かどうかということではない。

―

現在起こっている変革の本質の第一は、これまでコンピュータが処理できる形ではデータ化されていなかった情報が片っ端からデータ化されていくことだ。特定の情報ソースから、いざとることになれば、サンプリングされた事象ではなく発生するすべての事象（全量）がほぼリアルタイムでデータ化される。

これまでコンピュータがいきなり読み込める情報は、クレジットカードや、POSデータ、インターネットでの利用データぐらいしかなかったかもしれないが、これからは旅行や走った記録だとか、血液検査だとか、エアコンの稼働などあらゆる情報を皆さんが自分の意思で利活用するためにデータ化するようになる。(Foursquare, Nike+runningやNestなどを知っている人ならイメージがつくだろう。）*2

なぜ「全量」が大切なのかといえば、サンプリングデータでは見失ってしまうような現象、例えば１万人のうち一人か二人だけが特別な行動をしているなどという情報がすべて完全な解像度で見ることができるからだ。なので、決して小さな兆候も見逃さない。それがどう広がっていくかも可視化される。N数でもバイト数でもない、全量性が本質なのだ。（今回のエボラの話のことなどを考えればこの大切さはよくわかるだろう。）

この恩恵を最も受けている情報サービスの一つが検索だ。例えば、ヤフーの検索の場合、年間に検索されるワードの種類はなんと75億種類以上もある*3。これは言葉の組み合わせが含まれているせいもあるが、うろ覚えの言葉の断片、普通だったら言葉とは認識されていない文字だとか記号、数字の羅列、商品の品番（多分特定のサークルだとか企業でしか使われないものまで）に至るまで検索されているせいでもある。

これを通常の辞書だとか常識ベースで作っていては全く役に立たないことはいうまでもない。このロングテールの利用データに合わせてサービスを作って磨きこまれているので、みなさんにとってほしいデータのほとんどが手に入る役に立つサービスになるのだ。

サンプリングした情報とビッグデータが等価だというような意見やツィートも散見されるのだが、そんなことはないことはご理解いただけるだろう。このロングテール部分にこそビッグデータと言われるデータの本質がある。これまでの代表性だけを追求したデータでは落ちてしまうパターンがそこには明確に残っているのだ。

―

本質の第二は、我々人類がこれまでとは比較にならないほど巨大な計算能力を持ちつつあるということだ。ムーアの法則があり、分散処理の技術が劇的に向上していることもある。前々回に述べた通り、人類は10年前の約50倍の計算キャパを持っており、このままいけば10年後には10年前の2500倍もの計算キャパを持つことになる。人口は地球上の６割がたの地域ですでにプラトーに達し、むしろ減少方向にある中で、だ。

なので、上で生まれるデータの多くはこれまでは全く対処のしようがなかった規模なわけだが、これらが片っ端から意味のある形で処理される準備が整いつつある。

―

本質の第三、そしておそらく最も強力なインパクトを持つ本質が、我々の情報科学の進化の結果、人間の知的な力なしにはできないと思われていた情報処理、活動の多くを機械が担うことができるようになりつつあることだ。詳しくは前回、前々回のエントリを見てほしいが、知的生産活動のかなりのコアな部分が本質的に変容しようとしていっている。将棋やチェスのような極めて難易度の高いプロフェッショナルゲームの世界でも機械学習を繰り返したコンピュータが、人間のトップレベルに肉薄もしくは超えてしまっているのを皆さんもご存知だろう。これと同じことが皆さんの仕事や活動のあらゆるところで起こる。

―

この三つの変化が重なることで、これまで我々が本来、人間のやること、人間の仕事だと思う活動の多くが機械に置き換わっていく。知的キャパシティの劇的な解放が行われていくわけだ。なのでデータが巨大かどうかというより、データドリブンな社会、経済に向けてどのような変化が起こっていくのか、という視点に注目してみていくことで、読者諸兄姉もきっと、この現在起こっている流れをもっとよく理解できるようになるのではないだろうか。

確かにこれまでにない情報のデータ化（本質の第一）から始まっているように見えるために、データの大きさに目を取られてしまいがちだが、少なくともこのデータが十分にビッグなのか、どうとかということにこだわるのは、このようにかなりズレているので、そろそろやめにする時が来ている。この「ビッグ」という言葉は、あくまでマッキンゼーが何年か前に出したレポートで、変化のポイントの一つとしてこれまでの情報処理では対処できない規模のデータが生まれると語っただけに過ぎないのだから。

いかがだろうか？

―

（関連エントリ）