« 2010年10月 | トップページ | 2010年12月 »
2010年11月30日
LDA (Latent Dirichlet Allocation) の更新式の崩壊型ギブスサンプリングからの導出
LDA (Latent Dirichlet Allocation) は文書の生成モデルの代表的なものであり、文書集合の背後に潜む潜在的なトピック構造を推定する上で大変有効なものである。
上記の論文では変分ベイズに基づく学習が行われているが、実装がより容易であるギブスサンプラを用いる方法がその後提案されている。
また、以下の論文はギブスサンプリングに基づくLDAの学習を詳細に説明しており、大変参考になる。
G. Heinrich, ``Parameter estimation for text analysis,'' Technical Note, Ver. 2.4, 2008.
しかしGriffiths and Steyversの論文ならびにHeinrichによる解説ではLDAの生成モデルから具体的なギブスサンプリングの更新式を導出する過程が省略されている。潜在変数の条件付き確率においてパラメータを積分消去する崩壊型ギブスサンプリング(collapsed Gibbs sampling)の手法が使われており、研究室の学生から分かりにくいとの声があったため、解説する資料を作成した。関心のある人にとって意義があるかもしれないと思い、公開する。
LDA (Latent Dirichlet Allocation)の更新式の導出
Posted by taro at 21:12 | Comments (0) | taro's blog ℃
2010年11月23日
まなびの秋
他の先生方と一緒に担当している共同開講の授業が多いため、後期に入ってからも前半は授業がそれほど多くなかったが、先週あたりから徐々に増えてきた。
授業がない時期は研究したり実装したりでおとなしくしているのだが、適度に大勢に向けて喋る機会があった方が調子が良い気もする。
3回生対象の確率統計のゼミと、谷口先生や島田先生の研究室と合同で行っているノンパラメトリックベイズの勉強会も始まった。特に後者はとても有意義な会だと思う。そして面白い。参加希望者が多く、スカイプで学外の研究室とも繋げて実施している。
また、先週はNHKディレクターのMさんがネタ探しに来られた。面白い人を探しているとのことだったので、学内を連れ回して紹介してまわった。大学には面白い人が実にたくさんいる……と僕は思っているのだが、そう思っていただけたことを願う。
Posted by taro at 16:30 | Comments (0) | taro's blog ℃
2010年11月13日
Scienthroughで講演
Scienthroughにお呼ばれして講演してきた。
これは阪大で活動しているサークルで、学部生や院生を中心に主にアカデミックなイベントを企画している。
皆で研究内容を紹介し合う合同研究会「合ケン」、カフェで科学について語る「サイエンスカフェ」、書評のうまさを競う「ビブリオバトル」、その他いろいろ。
僕の講演はアカデミックでも何でもないのだが、メンバーの榎本さんが数年前に僕のサイトを見て面白いと思ってくれていたらしく、一度お話聞かせて欲しいということで呼んでいただいた。
Scienthroughのメンバーは代表をしている飯島さんしか知らなかったのだが、他の皆さんもそれぞれ魅力的な人たちで素晴らしかった。箱男まで作って持ってきてくれていた。


様々な活動成果を紹介するとりとめもない内容だったが、会場から出た質問から察するに皆さんの興味もばらばらだったようで、問題なかったのではないかと思う。
「これからやってみたい企画とかありますか」と聞かれたので構想を挙げたら、協力してくれそうな人たちが何人か現れてくれた。念願の企画のいくつかが実現するかもしれない。
Posted by taro at 13:20 | Comments (0) | taro's blog ℃