2016-08-31

はじめに

前回、確率の基礎を説明しました。 yaju3d.hatenablog.jp

今回は、機械学習や統計で使っている確率を説明します。

最初に，機械学習にとって確率はどういう役割なのかを確認しておきましょう。実のところ，機械学習に確率が必須というわけではありません。ニューラルネットワークやサポートベクターマシンなどの有名な手法も「確率を用いない機械学習」ですし，その他にも数多くの手法があります。しかし，「確率を用いない機械学習」の多くは，「結果のランキングを作りづらい（評価値の大小に意味がない）」「条件が異なる場合の結果を比較できない」などの欠点があります。一方の「確率を用いる機械学習」では，評価結果や推定されたパラメータが「どれくらい信用できるか（もっともらしいか）」を確率として計算します。確率同士は比較可能なので，計算結果を使ってランキングを作ったり，前提条件が異なっている結果同士を比較したり（よいモデルを探すときによく行われます），ということが自然にできるのです。
出展：第2回確率の初歩：機械学習はじめよう｜gihyo.jp … 技術評論社

上記記事に「機械学習に確率が必須というわけではありません。」と書かれていて、少しやる気を失って前記事から間が空いてしまいました。記事を書くってパワーがいるんですよね。

頻度主義とベイズ主義

高校までで学んできた確率とこれから学ぶ確率は、そもそも何が違うのでしょうか？
それには、頻度主義とベイズ主義の用語がキーになります。
数理統計学では頻度主義(frequentism)とベイズ主義(Bayesianism)があり、今も大論争が続いているそうです。

統計的機械学習の最終目的は「有限回しか試行できない中で、すべての目が同じ確率で出ると言ってもよいか」という問題を工学的に（つまり現実的に）解くことなのです。

頻度主義

高校生程度で習う確率の概念は基本的に頻度主義で、すなわちランダムな事象が生起・発生する頻度をもって確率とする考えです。
例えばサイコロの目が1になる確率を無限の数のサイコロを投げて、以下のような式で表すとする考えとなります。

P(1の目) = 1の目が出た数 / サイコロを振った数

ベイズ主義

現実の世界で確率を求める時に、頻度主義で確率を求めることが出来ないことが多々ある。
例えば何かの検診を受けて何かの癌マーカーが陽性になった時、実際に癌である確率みたいな確率である。これも頻度主義で求めれないことは出来るかも知れないが、数字を出すには非常に時間と工数がかかる。
頻度主義では不確かさの定量化はランダム性にのみ基づくのに対し、ベイズ主義では情報が不足していることにも基づくとし、不確かさの定量化を広く考える。

ベイズ確率

ベイズ確率はベイズ主義による「確率」の考え方で、ベイズの定理に基づいて求める。

ベイズの定理

$P(Y|X) = \displaystyle{\frac{P(Y)P(X|Y)}{P(X)}}$

歴史

ベイズ確率は、ベイズの定理の特別な場合を証明した18世紀イギリスの確率論研究家トーマス・ベイズ(1702-1761)にちなんだ命名（実際の命名は1950年代）ではあるが、ベイズ自身が現在のようなベイズ確率やベイズ推定の考え方を持っていたかどうかは定かでない。ベイズ確率の考え方を積極的に用いたのはフランスの数学者シモン・ラプラス(1749-1827)（ベイズの定理の一般的な場合を証明した）である。
出展：ベイズ確率 - Wikipedia

活用

最も有名な例はスパムメールの判定で「ベイジアンフィルタ」と呼ばれています。
他にもがん検診、犯罪捜査、マーケティング、人工知能など様々に使われている。

最後に

次回は、ベイズの定理についてもう少し説明していきます。

参照

機械学習　その2 事後確率

デジタル・デザイン・ラボラトリーな日々

アラフィフプログラマーが数学と物理と英語を基礎からやり直す。https://qiita.com/yaju

確率を理解してみる－頻度主義とベイズ主義