说说反面观点吧。

PGM实在是太大,我就说说我接触到的一些关于Topic Modeling的皮毛吧。

Topic Modeling是PGM的子集,多数是应用于文本处理上。之前David Blei发过一篇文章,把PLSA(也是一种topic model,暂时理解成简单版本的LDA吧)扩展成bayesian的版本。扩展出来的东西叫做LDA,不用管它全名是什么,暂时放在脑子里的缓存区就好了。

那篇文章出来之后,LDA拯救了无数CS的PhD,帮助他们顺利毕业,比较出名的几个组有UIUC的Chengxiang Zhai和Jiawei Han的学生,以Qiaozhu Mei为代表(虽然他的paper多数是关于PLSA的,但是PLSA也是PGM的一种)。

通俗一些讲,LDA就是给定一堆文档,和一个主题数K,自动聚类出这些文档的各个主题。比如说,给定一堆人民日报,那么LDA的输出会给出
主题一:国家主席,常委,汇见,歌唱家,Simple, Naive
主题二:工作,指导,莅临,江西,省长
主题三:油价,迎接,人民,上涨
等等

注意到每个主题都是由一些文章里出现的词所代表,也就是说这些主题的意义是需要人去进一步分析的。比如说对主题一,可以归纳(由聪明的你)出它的主题是:记者招待会,之类。

但是对于LDA的研究有那么几个致使问题,直接导致我感觉这里的文章确实是大家调侃的那样——灌灌水还不错,没有人在现实里应用。

1)纯粹无监督学习,公说公的效果好,婆说婆的效果好。效果的标准就是看聚类
2)少有的一点标准几乎都是log-likelihood,看谁的高(一般在paper中写的都是负值,所以看谁的低)。
3)最常用的学习算法是gibbs sampling,而这是一个sequential算法,很难写成分布式算法,因此大数据几乎没有办法使用LDA。
4)另一种学习算法variational inference虽然可以并行化,但是推导困难,从发的文章看,应该没有多少人能完全推下来(否则干嘛大家还用gibbs sampling)。

对于2,补充一点,虽然可以争论说log-likelihood也是个标准,可是通常这个标准跟人们想要用LDA实现的东西南辕北辙。比如说,人们通常希望LDA给出可读的文章,但是David Mimno等人发现,loglikelihood跟可读性不相关[1]。(于是很明显,他们又给出了一个直接maximize可读性的文章)。

对于1,其实近期出现的论文多数已经开始从无监督开始转向有监督了。比较明显的例子是,如何用人们发的Tweets来预测他们的location。Twitter本身提供很多数据都有location信息,于是这就成了ground truth,比如说在纽约的人会常常发类似”Times Square”之类的词。

那么,有人[2]把这个融进了LDA里,加入了一个变量,location,这样,对于没有location信息的tweet(想像你平常发推都打开地理信息但是今天去了夜店不想你妈知道于是关掉了,那么这条tweet就没有地理信息了),就可以通过你发的内容来分析出你现在在哪里。

可是有个问题在于,这样每多一个feature,就需要加一个变量到LDA的model里,以至于到后来model可以变得极其极其复杂。而且由于前面提到的问题3和4,几乎没有人能很容易地将这些加上变量后的model的推导算法写出来且并行化实现出来。因些这就构成了对LDA实用性的最大挑战。

另一个坏消息是,即使这么fancy的model在比较后发现,常常可以用很简单的方法就实现同样的效果。举个例子,有一个model在LDA的基础上增加了时间信息,也就是说,不光你可以知道一堆文章的主题,而且你还可以知道这些主题随着时间怎么变化。比如,二战之类的内容在1941年到1960年的书本中非常常见,但现在逐渐减少。所以如果你在1941年到现在出版的书上跑一下这个model的话,它会告诉你二战相关的主题热度在逐渐递减。

悲剧的是,使用原始的LDA,简单的把1941到现在每年的书单独跑一次,结果都跟这个改近后的Model没差。

这就够让研究者们郁闷了。你辛辛苦苦改近发动机想要你fancy的小奥拓跑快一点,结果发现邻居在没有改装的QQ上跑得跟你一样快,你怎么想?

我就是其中一个郁闷的人。所以,他妈的,我现在不搞了。

[1]David Mimno, Hanna M. Wallach, Edmund Talley, Miriam Leenders, and Andrew McCallum. 2011. Optimizing semantic coherence in topic models. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP ’11). Association for Computational Linguistics, Stroudsburg, PA, USA, 262-272.
[2]Yin, Z., Cao, L., Han, J., Zhai, C., & Huang, T. (2011). Geographical topic discovery and comparison. Presented at the WWW ’11: Proceedings of the 20th international conference on World wide web, ACM. doi:10.1145/1963405.1963443

— 完 —

本文作者:谢科

【知乎日报】
你都看到这啦,快来点我嘛 Σ(▼□▼メ)

此问题还有 6 个回答,查看全部。

分享到