了解LDA以及其在推荐系统上的引用

发布时间：2021-03-04 14:36:13 所属栏目：外闻来源：互联网

导读：tent Dirichlet Allocation(LDA)是一种无监督发现语料库底层主题的主题建模算法。它已被广泛应用于各种领域，特别是在自然语言处理和推荐系统中。这篇博文将带你从LDA的概况介绍到详细的技术说明，最后我们将讨论LDA在推荐系统上的应用! 概要介绍 LDA是语料

tent Dirichlet Allocation(LDA)是一种无监督发现语料库底层主题的主题建模算法。它已被广泛应用于各种领域，特别是在自然语言处理和推荐系统中。这篇博文将带你从LDA的概况介绍到详细的技术说明，最后我们将讨论LDA在推荐系统上的应用!

概要介绍

LDA是语料库/文档的生成概率模型。它基于“词袋”假设，即词语和文档是可互换的。也就是说，忽略了文档中文字的顺序，或者忽略了文档的顺序。其基本思想

设单个文档的生成都是通过从每个文档中抽取主题，然后从每个抽取的主题中抽取单词来生成的。为了获得单词和主题的适当分布，我们可以使用Gibbs Sampling、Maximum a Posteriori (MAP)或expect Maximization (EM)来训练LDA。

Plate表示法

为了更深入一点，让我们讨论一下LDA的符号表示法。在贝叶斯推理中，Plate表示法是一种图形化的表示随机变量抽样的重复过程的方法。每个plate可以看作是一个“循环”，其中plate右下角的变量表示循环的迭代次数。下面是LDA的Plate表示法。

的图中有两个组件。上面的plate，有K个主题，这些主题的词的狄利克雷分布由超参数β控制。同样，下面的表格描述了有M个文档，每个文档包含N个单词。灰色的圆圈w是观察到的单词，圆圈代表不同的潜在变量。z指的是与w相关联的主题，θ是文档主题的狄利克雷分布，由另一个超参数⍺控制。

生成过程

现在我们大致了解了如何通过plate表示法来生成文档。让我们用数学来表示它。

以《纽约时报》为例。首先，对于每个新闻文章，我们对整个文档的主题分布θ_i_进行采样。对每个主题中词的分布φ_k_进行采样。然后，对于每个文档

（编辑：孝感站长网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!

谷歌成立高速互联网项	日本企业正在研发新型
9月开学季，看韩国德国	马斯克全球仍需要石油