3

我正在做一个项目,需要一个工具或 API 来检测大文本中的句子片段。有许多解决方案,例如 OpenNLP 用于检测给定文件中的句子。但是,对于查找不属于任何语法正确句子的单词、短语或事件字符组合的问题,我找不到任何明确的解决方案。

任何帮助将不胜感激。

谢谢,

洛德龙

4

1 回答 1

1

您可以使用 n-gram 作为解决方法:

假设您有大量带有真实句子的文本供参考。您可以提取 1、2、3、4、5 或更多单词的所有序列,然后在文本中仔细检查文本中的片段是否以 n-gram 形式存在。

您可以直接从 google 下载 n-gram:http: //googleresearch.blogspot.de/2006/08/all-our-n-gram-are-belong-to-you.html但您可能需要大量流量。

在这种情况下,您也可以自己计算 n-gram,您可以从我的网站获取维基百科的解析数据集:http: //glm.rene-pickhardt.de/data/和https://github的源代码.com/renepickhardt/generalized-language-modeling-toolkit,以便您自己创建 ngram(或任何其他 ngram 工具包,如 srilm、kylm、opengrm 等)

于 2014-04-25T09:07:32.420 回答