24

我想构建一个 Web 应用程序,让用户可以上传文档视频图像音乐,然后让他们能够搜索它们。把它想象成Dropbox + 语义搜索。

当用户上传新文件时,例如Document1.docx,如何根据文件内容自动生成标签?换句话说,不需要用户输入来确定文件的内容。如果假设Document1.docx是一篇关于数据挖掘的研究论文,那么当用户搜索数据挖掘研究论文document1时,该文件应该在搜索结果中返回,因为数据挖掘研究论文很可能是潜在的自动- 为给定文档生成的标签。

1. 对于这个问题,你会推荐哪些算法?

2. 有没有可以为我做这件事的自然语言库?

3. 我应该研究哪些机器学习技术来提高标记精度?

4. 如何将其扩展到视频和图像自动标记?

提前致谢!

4

5 回答 5

21

此类任务最常见的无监督机器学习模型是潜在狄利克雷分配(LDA)。该模型根据文档中的单词自动推断文档语料库中的主题集合。在您的一组文档上运行 LDA 会在您搜索某些主题时为某些主题分配具有概率的词,然后您可以检索与该词相关的概率最高的文档。

图像和音乐也有一些扩展,请参阅http://cseweb.ucsd.edu/~dhu/docs/research_exam09.pdf

LDA 有多种语言的多种高效实现:

于 2013-03-13T04:59:41.090 回答
5

这些家伙提出了 LDA 的替代方案。

社交推荐系统的自动标签推荐算法 http://research.microsoft.com/pubs/79896/tagging.pdf

没有通读整篇论文,但他们有两种算法:

  1. 监督学习版本。这还不错。您可以使用维基百科来训练算法
  2. “原型”版本。没有机会通过这个,但这是他们推荐的

更新:我对此进行了更多研究,并找到了另一种方法。基本上,这是一个两阶段的方法,非常易于理解和实施。虽然对于 100,000 个文档来说太慢了,但它(可能)对于 1000 个文档具有良好的性能(因此它非常适合标记单个用户的文档)。我将尝试这种方法,并将报告性能/可用性。

同时,方法如下:

  1. 根据http://qr.ae/36RAP使用 TextRank 为单个文档生成标签列表。这会为单个文档生成一个独立于其他文档的标签列表。
  2. 使用“使用机器学习支持持续本体开发”(https://www.researchgate.net/publication/221630712_Using_Machine_Learning_to_Support_Continuous_Ontology_Development)中的算法将标签列表(从步骤 1 开始)集成到现有标签列表中。
于 2015-01-26T15:53:39.910 回答
1

可以使用此关键短语提取算法/包来标记文本文档。 http://www.nzdl.org/Kea/ 目前它支持有限类型的文件(我猜是农业和医疗),但您可以根据自己的要求对其进行培训。

我不确定图像/视频部分将如何工作,除非您正在进行非常准确的对象检测(这有它自己的缺点)。你打算怎么做?

于 2014-06-24T13:15:35.763 回答
1

您需要 Doc-Tags ( https://www.Doc-Tags.com ),它是一种商业产品,可自动且无监督 - 生成上下文准确的文档标签。内置的报告功能使该产品成为轻量级的文档管理系统。

对于想要定制自己的方法的开发人员 - 源代码可用(非常便宜),后端服务 xAIgent ( https://xAIgent.com ) 使用起来非常便宜。

于 2020-01-15T15:45:07.290 回答
0

我今天发布了一篇博客文章来回答您的问题。

http://scottge.net/2015/06/30/automatic-image-and-video-tagging/

基本上有两种方法可以从图像和视频中自动提取关键字。

  1. 多实例学习 (MIL)
  2. 深度神经网络 (DNN)、循环神经网络 (RNN) 及其变体

在上面的博客文章中,我列出了最新的研究论文来说明解决方案。其中一些甚至包括演示站点和源代码。

谢谢,斯科特

于 2015-07-01T20:41:38.953 回答