« 太陽を見る目が変わる | トップページ | 脳磁場計測 »

2009年10月31日

統計的推定の授業

後期から担当している授業で統計的推定の話をしている。

リレー講義の一環として与えられたテーマが自然言語処理で、何について話そうか迷ったが、一番簡単な言語モデルのひとつであるN-gramモデルについて話すことにした。その前提として確率論の知識が必要なので、基礎的な所から説明している。

確率統計の授業は受けたことのある学生が多いようだが、その内容は検定が中心で、最尤法やベイズ推定、機械学習の話はあまり知らないようである。

いきなり尤度関数の微分による最尤法を導入しても戸惑われるだけかと思ったので、尤度とは何かを分かってもらうために、トランプを使って離散パラメータに対する最尤法を具体的に計算しながら説明したところ、なかなか受けが良かった。

4枚のカードがあり、何枚かがハートで残りがスペードである。引くたびに戻す形で、4回引く。結果はハート、スペード、ハート、ハートだった。

4枚のうち何枚がハートだろうか?

3枚と答える学生もいれば、2枚と答える学生もいる。

なぜそう思うか、そして計算によって自分の推測の妥当性を示せるかどうかを聞く。

少し考えてもらった後で、最尤法を説明する。

観測された事象を生じさせる確率が一番高くなるパラメータを採用するのが最尤法である。この場合、ハート、スペード、ハート、ハートという並びが生じる確率が一番高い構成が最尤解となる。ハートが2枚なら1/16、ハートが3枚なら27/256なので、3枚と考える方が良い。

この例を示した上で、尤度関数を条件付き確率p(x|θ)として定義し、最尤法とは事前分布を定数と置いた場合のベイズ推定であり、その根拠はベイズの定理であることを説明する。

ポイントはまずハートの枚数という離散パラメータを使って最尤法の意味を分かってもらい、その後で連続パラメータに進むという順序である。

連続パラメータではパラメータが無数の値を取り得るため、網羅的に比較することができない。だから微分で極大値を求める必要がある。さらに、パラメータに制約条件があればラグランジュ未定乗数法を使うことになる。

自然言語処理で使うN-gramモデルの場合、各N-gramの相対頻度が最尤解であることが示せる。

その後、ベイズ推定と最尤推定を比較し、共役事前分布の話、多項分布の共役事前分布としてのディリクレ分布、対称なディリクレ分布を事前分布として使用することが加算スムージングと等しいといった話をする。

この流れは最尤法を初めて聞く学生への導入としてなかなか良いのではないかと思っている。

トランプを実際に引いて、実演の要素を含ませることは大事だと思った。

僕がギャンブルについて詳しくないのでトランプを使ったが、麻雀を例に出しつつ、牌を引く実演をしたらもっと受けるかもしれない。

Posted by taro at 2009年10月31日 23:07

« 太陽を見る目が変わる | トップページ | 脳磁場計測 »

コメント

くわしくないので勉強したいです。よい教科書はありませんか?
あるいはこっそり授業を聞きに行こうかな。

Posted by: ひらたともよし at 2009年11月01日 00:21

初めまして。

私もこの前このdiscountingの手法について授業があったのですが、一見ヒューリステックに思えたdiscountingの方法がベイズ流の枠組みで説明できる、と聞いたときはわくわくしました。

Posted by: syou6162 at 2009年11月01日 00:36

> ひらたさん

一番のお薦めはC.M.ビショップ「パターン認識と機械学習」という本です。

パターン認識と機械学習 - ベイズ理論による統計的予測

著者のビショップはもともとヒッグスの研究室で物理を研究していた人で、その後、機械学習の研究者になったようです。

まためしでも食いに行った時にいろいろお話しましょう。

> syou6162さん

こんな身近なところにベイズ推定が! っていうのがいいですよね。

数回の授業で統計的言語モデルの入門を話す時のキラーコンテンツだと思ってます。

Posted by: taro at 2009年11月01日 00:37

コメントを書き込む



(←スパム対策です。アルファベット小文字(半角)でyesと記入していただけますでしょうか)


(コメントには表示されません。管理者(taro)にのみ伝わります)


プロフィールを記憶させますか?

(HTMLタグが使用可能です)