我一直在从事文本分析任务。我应该在哪里识别段落中最常用的单词。
为此,我正在使用 algorithmia - npm 包。这为我提供了文本中重复次数最多的单词。
该软件包工作得很好,但我仍然有两个问题:
(1) 我得到一个标签数组,如下所示:
['integrate', 'integration', 'policy', 'conversation', 'demo', 'test']
在这里,“整合”和“整合”都具有相同的含义。我想避免在这里“整合”。
(2) 该过程使用重复最多的词来识别标签。我的输入段落中有“定价”、“成本”、“付款”等词,但由于它不完全匹配,我没有得到“成本”或类似的标签。
改进其中一个逻辑将帮助我完成任务。
我已经尝试了许多同义词、名词、动词等库。但似乎没有成功。让提一下我已经尝试过的软件包:
词库-com
句子相似度
字符串相似度
妥协
词网
节点雪球
数据缪斯
我还尝试设置一个阈值并匹配“集成”和“集成”这两个词,它确实删除了“集成”标签,但也影响了我需要在那里的一些其他标签。
提前致谢