概率图模型（PGM）有必要系统的学习一下么？

说说反面观点吧。

PGM实在是太大，我就说说我接触到的一些关于Topic Modeling的皮毛吧。

Topic Modeling是PGM的子集，多数是应用于文本处理上。之前David Blei发过一篇文章，把PLSA（也是一种topic model，暂时理解成简单版本的LDA吧）扩展成bayesian的版本。扩展出来的东西叫做LDA，不用管它全名是什么，暂时放在脑子里的缓存区就好了。

那篇文章出来之后，LDA拯救了无数CS的PhD，帮助他们顺利毕业，比较出名的几个组有UIUC的Chengxiang Zhai和Jiawei Han的学生，以Qiaozhu Mei为代表（虽然他的paper多数是关于PLSA的，但是PLSA也是PGM的一种）。

通俗一些讲，LDA就是给定一堆文档，和一个主题数K，自动聚类出这些文档的各个主题。比如说，给定一堆人民日报，那么LDA的输出会给出
主题一：国家主席，常委，汇见，歌唱家，Simple, Naive
主题二：工作，指导，莅临，江西，省长
主题三：油价，迎接，人民，上涨
等等

注意到每个主题都是由一些文章里出现的词所代表，也就是说这些主题的意义是需要人去进一步分析的。比如说对主题一，可以归纳（由聪明的你）出它的主题是：记者招待会，之类。

但是对于LDA的研究有那么几个致使问题，直接导致我感觉这里的文章确实是大家调侃的那样——灌灌水还不错，没有人在现实里应用。

1）纯粹无监督学习，公说公的效果好，婆说婆的效果好。效果的标准就是看聚类
2）少有的一点标准几乎都是log-likelihood，看谁的高（一般在paper中写的都是负值，所以看谁的低）。
3）最常用的学习算法是gibbs sampling，而这是一个sequential算法，很难写成分布式算法，因此大数据几乎没有办法使用LDA。
4）另一种学习算法variational inference虽然可以并行化，但是推导困难，从发的文章看，应该没有多少人能完全推下来（否则干嘛大家还用gibbs sampling）。

对于2，补充一点，虽然可以争论说log-likelihood也是个标准，可是通常这个标准跟人们想要用LDA实现的东西南辕北辙。比如说，人们通常希望LDA给出可读的文章，但是David Mimno等人发现，loglikelihood跟可读性不相关[1]。（于是很明显，他们又给出了一个直接maximize可读性的文章）。

对于1，其实近期出现的论文多数已经开始从无监督开始转向有监督了。比较明显的例子是，如何用人们发的Tweets来预测他们的location。Twitter本身提供很多数据都有location信息，于是这就成了ground truth，比如说在纽约的人会常常发类似”Times Square”之类的词。

那么，有人[2]把这个融进了LDA里，加入了一个变量，location，这样，对于没有location信息的tweet（想像你平常发推都打开地理信息但是今天去了夜店不想你妈知道于是关掉了，那么这条tweet就没有地理信息了），就可以通过你发的内容来分析出你现在在哪里。

可是有个问题在于，这样每多一个feature，就需要加一个变量到LDA的model里，以至于到后来model可以变得极其极其复杂。而且由于前面提到的问题3和4，几乎没有人能很容易地将这些加上变量后的model的推导算法写出来且并行化实现出来。因些这就构成了对LDA实用性的最大挑战。

另一个坏消息是，即使这么fancy的model在比较后发现，常常可以用很简单的方法就实现同样的效果。举个例子，有一个model在LDA的基础上增加了时间信息，也就是说，不光你可以知道一堆文章的主题，而且你还可以知道这些主题随着时间怎么变化。比如，二战之类的内容在1941年到1960年的书本中非常常见，但现在逐渐减少。所以如果你在1941年到现在出版的书上跑一下这个model的话，它会告诉你二战相关的主题热度在逐渐递减。

悲剧的是，使用原始的LDA，简单的把1941到现在每年的书单独跑一次，结果都跟这个改近后的Model没差。

这就够让研究者们郁闷了。你辛辛苦苦改近发动机想要你fancy的小奥拓跑快一点，结果发现邻居在没有改装的QQ上跑得跟你一样快，你怎么想？

我就是其中一个郁闷的人。所以，他妈的，我现在不搞了。

[1]David Mimno, Hanna M. Wallach, Edmund Talley, Miriam Leenders, and Andrew McCallum. 2011. Optimizing semantic coherence in topic models. In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP ’11). Association for Computational Linguistics, Stroudsburg, PA, USA, 262-272.
[2]Yin, Z., Cao, L., Han, J., Zhai, C., & Huang, T. (2011). Geographical topic discovery and comparison. Presented at the WWW ’11: Proceedings of the 20th international conference on World wide web, ACM. doi:10.1145/1963405.1963443

— 完 —

本文作者：谢科

【知乎日报】
你都看到这啦，快来点我嘛 Σ(▼□▼メ)

此问题还有 6 个回答，查看全部。

学校召开巡察工作领导小组第三次会议

高翔调研国际学院

学校举办第十三届大学生节能减排社会实践与科技竞赛

我校承办“创新浙江 IU22”浙江省高校学生科技创新优秀成果展

我校师生在省第十九届“挑战杯”竞赛中创佳绩

果断收藏！浙工大2025-2026学年校历出炉！

欧洲科学与艺术院院士沈景华来校作学术报告

浙江工业大学2025年“三位一体”综合评价招生综合素质测试入围考生名单公示

浙工大2025年硕士研究生复试分数线公布

【浙工大•这五年】有组织地做有用科研，跑出科技创新高质量发展加速度

【浙工大•这五年】奋力推进新时代卓越研究生教育体系建设

【浙工大•这五年】立德树人守初心，铸魂育才创一流

一图读懂“浙工大系”！浙江工业大学校友企业发展报告（2024）来了！

浙江工业大学校友企业家联谊会成立， “浙工大系”聚力启航！

学校成立绍兴校友会化工分会

湖畔周末镜中

晒出你的范儿!|首届杭城高校自拍大赛火爆启动

湖畔周末行至

我校足球队获2024年浙江省青少年校园足球联赛大学男子甲A组冠军

有体育，才工大！ZJUT运动会来啦！

专业！下次还来！

我校承办浙江省高校“科技创新和产业创新深度融合”交流研讨会

省部属高校组织员能力提升培训示范班在浙工大举行

小和山片区高校校际干部联合培训班在我校举行

上新啦！来领浙工大PPT模板！

好看又实用！浙工大专属PPT模板上新！

美国内科学会推荐用针灸治抑郁？没有的事

学校举办第十三届大学生节能减排社会实践与科技竞赛

学校召开巡察工作领导小组第三次会议

我校承办“创新浙江 IU22”浙江省高校学生科技创新优秀成果展

高翔调研国际学院

我校举办案例教学设计与示范工作坊

“统战理论政策进高校”宣讲暨统一战线展在我校举行

学校召开2025年宣传思想文化工作会议

欧洲科学与艺术院院士沈景华来校作学术报告

概率图模型（PGM）有必要系统的学习一下么？

概率图模型（PGM）有必要系统的学习一下么？

分享到

下一篇 名牌大学真的「管用」吗？

上一篇 [what if]第88期：汽水罐子

相关阅读

下一篇名牌大学真的「管用」吗？