algorithm - 无监督自动标记算法？

Question

我想构建一个 Web 应用程序，让用户可以上传文档、视频、图像、音乐，然后让他们能够搜索它们。把它想象成Dropbox + 语义搜索。

当用户上传新文件时，例如Document1.docx，如何根据文件内容自动生成标签？换句话说，不需要用户输入来确定文件的内容。如果假设Document1.docx是一篇关于数据挖掘的研究论文，那么当用户搜索数据挖掘或研究论文或document1时，该文件应该在搜索结果中返回，因为数据挖掘和研究论文很可能是潜在的自动- 为给定文档生成的标签。

1. 对于这个问题，你会推荐哪些算法？

2. 有没有可以为我做这件事的自然语言库？

3. 我应该研究哪些机器学习技术来提高标记精度？

4. 如何将其扩展到视频和图像自动标记？

提前致谢！

score 21 · Accepted Answer

此类任务最常见的无监督机器学习模型是潜在狄利克雷分配(LDA)。该模型根据文档中的单词自动推断文档语料库中的主题集合。在您的一组文档上运行 LDA 会在您搜索某些主题时为某些主题分配具有概率的词，然后您可以检索与该词相关的概率最高的文档。

图像和音乐也有一些扩展，请参阅http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf。

LDA 有多种语言的多种高效实现：

来自原始研究人员的许多实现
http://mallet.cs.umass.edu/，用 Java 编写，在 SO 上被其他人推荐
PLDA：快速、并行的 C++ 实现

score 5 · Accepted Answer

这些家伙提出了 LDA 的替代方案。

社交推荐系统的自动标签推荐算法 http://research.microsoft.com/pubs/79896/tagging.pdf

没有通读整篇论文，但他们有两种算法：

监督学习版本。这还不错。您可以使用维基百科来训练算法
“原型”版本。没有机会通过这个，但这是他们推荐的

更新：我对此进行了更多研究，并找到了另一种方法。基本上，这是一个两阶段的方法，非常易于理解和实施。虽然对于 100,000 个文档来说太慢了，但它（可能）对于 1000 个文档具有良好的性能（因此它非常适合标记单个用户的文档）。我将尝试这种方法，并将报告性能/可用性。

同时，方法如下：

根据http://qr.ae/36RAP使用 TextRank 为单个文档生成标签列表。这会为单个文档生成一个独立于其他文档的标签列表。
使用“使用机器学习支持持续本体开发”（https://www.researchgate.net/publication/221630712_Using_Machine_Learning_to_Support_Continuous_Ontology_Development）中的算法将标签列表（从步骤 1 开始）集成到现有标签列表中。

score 1 · Accepted Answer

可以使用此关键短语提取算法/包来标记文本文档。 http://www.nzdl.org/Kea/ 目前它支持有限类型的文件（我猜是农业和医疗），但您可以根据自己的要求对其进行培训。

我不确定图像/视频部分将如何工作，除非您正在进行非常准确的对象检测（这有它自己的缺点）。你打算怎么做？

score 1 · Accepted Answer

您需要 Doc-Tags ( https://www.Doc-Tags.com )，它是一种商业产品，可自动且无监督 - 生成上下文准确的文档标签。内置的报告功能使该产品成为轻量级的文档管理系统。

对于想要定制自己的方法的开发人员 - 源代码可用（非常便宜），后端服务 xAIgent ( https://xAIgent.com ) 使用起来非常便宜。

score 0 · Accepted Answer

我今天发布了一篇博客文章来回答您的问题。

http://scottge.net/2015/06/30/automatic-image-and-video-tagging/

基本上有两种方法可以从图像和视频中自动提取关键字。

多实例学习 (MIL)
深度神经网络 (DNN)、循环神经网络 (RNN) 及其变体

在上面的博客文章中，我列出了最新的研究论文来说明解决方案。其中一些甚至包括演示站点和源代码。

谢谢，斯科特

algorithm - 无监督自动标记算法？

5 回答 5

Related

Reference