我有一大串文本description
,最长可达 500 字。我想做以下事情:
- 循环
description
并从 array 中查找大量预定义的单词keywords
,其中包含单个单词、单词对和单词三元组。 - 每次找到匹配项时,将此匹配项添加到一个新数组中
matches
(除非已经在该过程的早期添加)并从description
.
我已经四处寻找解决方案,但他们中的大多数似乎要么深入自然语言处理的深处,这对于我当前的需求来说太复杂了,要么只是将文本字符串拆分为空格,这意味着它是然后不可能寻找单词对。
非常感谢任何关于如何有效地做到这一点的想法。