1

我现在正在为一个关键字提取项目工作。基本上,我使用 python 来做到这一点。先说一下我的项目是什么。我在这个项目中的目标是从段落或网页中找出关键词(关键短语不是那么可取)。

我假设我可以从网站上抓取非常好的内容结构。

假设我有很多段落,所有段落都来自同一个行业。这是示例段落之一:

关于我们

我们是世界上最伟大的银行,提供世界上最安全的服务。我们的银行提供外汇、证券交易和储蓄服务。在过去的几年里,我们成功地建立了可靠的声誉。

其次,我已将这些段落中的关键字标记为其他有监督学习模型。

最后,我尝试使用 KEA,这是一个 JAVA 程序(我使用 python 调用 JAVA 程序),有一个模型。

然而,最终的结果是非常糟糕的。准确率只有15%左右。这意味着,如果我给我的 KEA 程序一个段落,KEA 会输出 10 个关键词给我,并且将近 85% 的这些关键词实际上都不是一个理想的关​​键词。

在这里我有几个问题:

  1. 这个问题是关于 KEA 的准备材料。关键字是否应该包含在训练数据的 .txt 文件中?或者我应该从段落中删除它?因为它在 KEA 的自述文件中令人困惑:

'从这些文档中删除作者指定的关键短语,并将它们放入单独的“.key”文件中。例如,如果您的文档文件名为 doc1.txt,请将关键词移动到名为“doc1.key”的新文件中。将每个关键短语放在此文件中的单独行上很重要!

因此,假设我的训练数据有最后一个示例段落,并假设 'safe' 和 'reliable' 。我应该从段落中删除这两个词吗?

  1. 由于KEA可以应用SKOS词汇,是否意味着如果我在某种主题(比如说金融行业)中使用合适的SKOS词汇,我的模型结果会更好?如果是,我在哪里可以找到这些 SKOS 词汇表,例如我想要关于金融行业的 SKOS 词汇表。

  2. 是否有来自 python 的建议库可以在这个主题中强大?有人可以分享给我吗?

非常感谢。

4

1 回答 1

0

实际上,我尝试使用这个(https://www.kaggle.com/c/word2vec-nlp-tutorial/details/part-1-for-beginners-bag-of-words)kaggle示例来做到这一点。但是,这太简单了。

不知何故,我想知道更多的实践案例。就像 netfix 或 facebook 如何检测人们的评论一样。有人会向我提供更多有关此文本挖掘信息的信息吗?

于 2016-12-15T20:11:16.180 回答