0

我正在寻找一种在文本中查找某些特定模式的方法。例如,如果我想从如下格式的文本中查找所有引用:

  • Baron, Naomi (2000) 字母到电子邮件:书面英语是如何演变的以及它的发展方向,劳特利奇:伦敦和纽约。

所以任何类似的东西都会从输入文本中返回。有什么算法可以很好的解决这个问题。到目前为止,我发现的只是在文本中搜索相似字符串的算法。

我正在考虑使用正则表达式,但我不知道这是否是最好的方法,因为我需要一些东西来计算一些相似性指数,然后返回得分最高的命中。

4

1 回答 1

0

您正在寻找的技术称为信息提取。

这是我对类似问题的回答:

Apple 如何在电子邮件中查找日期、时间和地址?

您可能还需要结合一些命名实体识别。http://en.wikipedia.org/wiki/Named-entity_recognition

于 2012-06-21T18:50:24.303 回答