information-retrieval - 模糊匹配大文本中的段落

翻译自：https://stackoverflow.com/questions/15644984 2013-03-26T18:43:59.880

437 次

我需要对短语进行非常复杂的匹配。我的文件中有大量文本，每个文件超过 1000 个单词。

我正在搜索的短语（搜索短语）是这样的：

投资并不意味着： i. 仅因以下原因产生的债权： 1. 一方的国民或企业向另一方境内的企业销售商品或服务的商业合同，或 2. 与商业交易，例如贸易融资，而不是先前涵盖的贷款或货币债权。

我想知道该短语是否出现在我拥有的每个文件中。但是，这些文件不会包含与该短语完全相同的内容。相反，文件（文本文件）将是一个带有如下段落的大文档：

但投资并不意味着对仅来自专门为缔约一方领土内的国民或法人向缔约另一方领土内的国民或法人销售商品或服务而设计的商业交易而获得的金钱的债权，为贸易融资等商业交易融资的信贷，以及期限少于三年的其他信贷，以及授予国家或国有企业的信贷。

如您所见，searchphrase 在实际含义上与文本文件中的这一段非常相似。关键词也有相当大的重叠。因此，我应该得到一场比赛。

我应该尝试使用哪种算法来编写代码？在任何地方都可以使用预编码模块吗？

0 回答 0