2011年5月5日木曜日

その数学が戦略を決める

その数学が戦略を決める
イアン・エアーズ
文藝春秋
売り上げランキング: 20404

本書は大量のデータをコンピュータで分析し、それらを利用して物事の判断を行う手法を紹介しています。
本書で紹介している分析方法を大きく二つあり、ひとつは回帰分析、ニューラルネットワークを利用する方法、もうひとつは無作為抽出テストを利用する方法です。特に回帰分析、ニューラルネットワークを利用する方法を「絶対計算」と呼び、本書を通じて語られるキーワードになっています。

本書では、この「絶対計算」が利用されている事例がワインの品質にはじまり、マーケティング、出会い系サイト、医療、映画産業などたくさん登場します。

Amazon、GoogleなどのWebサイトや最近何かと話題のFacebookなどのソーシャル系サイトがこのような技術を利用していることは、知っていましたけど、アメリカではこんなに広い範囲でこのような技術が利用されていると知って驚きました。それにこの本自体が出版されてから時間がたっているので、今ではもっと広い分野で利用されているのでしょう。

しかし、個人的に本書で重要だと思われる部分は、本書で「直感を定量化する手法」として紹介されている平均値と標準偏差を利用して、信頼区間を求めつつ直感を補正するという方法を紹介している部分だと思います。また、ベイズ統計を利用して複合的な確率を正しく扱う方法も大変重要だと思いました。
本書では、個人(消費者)がこのような「統計的手法」を身につけることが重要であり、上記2つの手法は身につけなければならないたくさんの手法のほんの導入にすぎず、多くの勉強が必要だと述べています。
そして、コンピュータがデータを元に判断をする時代になると多くの専門家が不要になる時代が来る。たとえそういう時代になったとしても、人は一切不要になるというわけではなく、求められる役割が違ってくるということも述べられており、これもまた本書の重要な提言の一つだと感じました。

最後に本書を読みながら思ったのですが、「個人情報保護法」は実はあまりいい法律ではないのではないでしょうか?今までは「個人情報は保護されている」という安心感がちまたの詐欺事件の原因になっていると考えていたのですが、本書で紹介されているような手法が社会に浸透することへの妨げになっているのではないかと考えるからです。
まあこのような主張も、本書の著者に言わせると「データによる根拠」が必要なのでしょうが・・・。

直感を補正する「2SDルール」の適用方法

「2SDルール」というのは、たとえば
「テストの平均点が50点で標準偏差が10点の場合、受験者の95%は30点から70点の間の点をとっている」
というようにある事象は95%の確率で平均値±標準偏差×2(2SD)の区間の間におさまることです。
これを利用して、自分の直感を検証、補正する方法が本書で紹介されております。
手順は以下の通りです。

  1. 平均値の予測・・・ある事象に対して、値を予測する
    (例:わたしは今までにこの山を6回登ったことがある)
  2. 標準偏差の予測・・・予測した値に対して、誤差の範囲を予測する
    (例:2回)
  3. 信頼区間を算出し、範囲が妥当なものかを検証する
    (例:わたしは今までに2回~8回山に登ったことがあるか?)
  4. 検証した結果より、平均値または標準偏差を修正して、3. を繰り返す
    (例:わたしは少なくとも4回以上は山に登っているはずだ。なので、最初の値を8回(信頼区間 = 4~10)に変更しよう)

マンモグラフィと乳がんの関係性によるベイズ統計の例

40歳の女性のうち、定期的な検査を受ける人の一パーセントが乳がんにかかっています。乳がん女性の八十パーセントもマンモグラフィで陽性を示します。乳がんなしの女性10パーセントも、マンモグラフィで陽性を示します。

  1. マンモグラフィで陽性となった人が本当に乳がんである確率はいくつ?
    乳がん検査を受ける女性が1000人いたとして、
    実際に乳がんの女性
    → 10人(1000×0.01)
    乳がんの女性のうちマンモグラフィで陽性になる女性の人数
    → 8人(10×0.8)
    マンモグラフィで陽性となった女性のうち、乳がんではない女性の人数(偽陽性の人数)
    → 99人((1000 - 10) × 0.1)
    から
    「乳がんの女性のうちマンモグラフィで陽性になる女性の人数 ÷ マンモグラフィで陽性となった人数」
    を求めれば良い。
    答えは 8÷107 ≒ 0.075 で約7.5パーセント
  2. マンモグラフィで陰性となった女性が乳がんである確率はいくつ?
    「乳がん女性のうちマンモグラフィで院生になる女性の人数 ÷ マンモグラフィで陰性となった人数」
    を求めればよい。
    答えは 2÷893 ≒ 0.002 で約0.2パーセント

0 件のコメント:

コメントを投稿