基本上 - 我想计算各种术语的“接近度”。“接近度”是指它们之间的空格/字符/单词的数量。
例子:
术语 = Word1 / Word2 Chunk = " blah Word1 blah blah blah blah Word2 blah " Proximity = Word1-Word2:5 脚本会看到 2 个术语,找到它们,然后根据它们之间的单词查看距离。
更高级的版本是检查语义结构 - 并确定术语是否出现在相同的语义元素、兄弟姐妹或父级等中。因此,术语的邻近发现可能在同一段落内,或在连续段落中,或在相同的“父”(标题)下,但以其他方式分开等。
此外 - 在以后引入诸如词干/关系/发音之类的东西也可能很有用。
.
我环顾了网络(谷歌,这里,php 论坛,php 脚本站点)。没有看到类似的东西。我可以在一些类似(有限)的网站上看到工具——通常是基于 SEO 的工具。我希望能够将其应用于一般的“文本”......因为我可以将其应用于上传的 word/txt 文件等。
我没有看到任何真实的例子——所以我只能假设它的编码比小事还小。
问题是 - 我该怎么做?我将如何处理单词的变体顺序(Word1+Word2 / Word2+Word1)?我如何处理识别同一元素/结构内部/外部的接近度?
希望有人可以阐明/提出一些建议。