0

我使用以下文本测试了来自 IBM Natural Language Understanding 服务的关键字提取:

Desarrollo PDA。调整PDA。新模 PDA。调整模 PDA。没有 sincroniza PDA。误差模 PDA。

我得到了以下回复:

  • 具有 98.31% 相关性的模 pda
  • ajustes modulo pda 相关性为 64.44%
  • 具有 64.34 相关性的新模 pda

现在我的问题是为什么“模 pda”关键字相关性为 98.31% 而不仅仅是“PDA”具有更高的相关性?我一直在到处寻找有关 IBM 如何工作的信息,但无济于事。

4

1 回答 1

0

用于提取和评分关键字的实际算法将是公司专有配方,我不希望他们公开。但是您可以找到很多关于该主题的研究论文,但通常最终的商业产品将包含不同技术的组合以获得最佳结果。

您可以比较来自不同供应商(如 IBM、Google、Amazon)的不同 NLU 服务并比较结果。

专门针对您的查询,您正在尝试从单个文档中提取关键字或主题。PDA 出现在文档中的每个句子中。如果我们应用像 TF-IDF 这样的简单技术,其中每个句子都是一个文档,那么词 PDA 的 TF-IDF=0,因为它出现在每个句子中并且变得无关紧要,因为它没有为整体主题或文档重要性添加信息。

于 2018-11-30T15:22:24.570 回答