« まなびの秋 | トップページ | 冬は籠もって研究するに限る。 »

2010年11月30日

LDA (Latent Dirichlet Allocation) の更新式の崩壊型ギブスサンプリングからの導出

LDA (Latent Dirichlet Allocation) は文書の生成モデルの代表的なものであり、文書集合の背後に潜む潜在的なトピック構造を推定する上で大変有効なものである。

D. M. Blei, A. Y. Ng, and M. I. Jordan, ``Latent Dirichlet Allocation,'' Journal of Machine Learning Research, vol.3, pp.993-1022, 2003.

上記の論文では変分ベイズに基づく学習が行われているが、実装がより容易であるギブスサンプラを用いる方法がその後提案されている。

T. L. Griffiths and M. Steyvers, ``Finding scientific topics,'' Proc. of the National Academy of Sciences of the United States of America, vol.101, pp.5228-5235, 2004.

また、以下の論文はギブスサンプリングに基づくLDAの学習を詳細に説明しており、大変参考になる。

G. Heinrich, ``Parameter estimation for text analysis,'' Technical Note, Ver. 2.4, 2008.

しかしGriffiths and Steyversの論文ならびにHeinrichによる解説ではLDAの生成モデルから具体的なギブスサンプリングの更新式を導出する過程が省略されている。潜在変数の条件付き確率においてパラメータを積分消去する崩壊型ギブスサンプリング(collapsed Gibbs sampling)の手法が使われており、研究室の学生から分かりにくいとの声があったため、解説する資料を作成した。関心のある人にとって意義があるかもしれないと思い、公開する。

LDA (Latent Dirichlet Allocation)の更新式の導出

Posted by taro at 2010年11月30日 21:12

« まなびの秋 | トップページ | 冬は籠もって研究するに限る。 »

コメント

コメントを書き込む



(←スパム対策です。アルファベット小文字(半角)でyesと記入していただけますでしょうか)


(コメントには表示されません。管理者(taro)にのみ伝わります)


プロフィールを記憶させますか?

(HTMLタグが使用可能です)