1

是否有可以从文本正文中查找信息的最佳实践、算法或软件(需要许可许可证的开源......)?我指的是:

  • 查找文本中的所有电子邮件地址
  • 查找所有提及的城市
  • 查找所有提及的州
  • 查找所有网址
  • 查找所有提及的电话号码
  • 找到所有提到的邮政编码......能够添加更多......

我听说 RapidMiner 应该能够像这样进行文本挖掘,但 AGPL 不是我所接受的许可。

做这种分析有什么“标准”吗?

4

2 回答 2

1

对于此类实体类型,您可以使用基于规则的 NER 工具,例如gexp

于 2011-06-12T15:41:33.757 回答
1

阅读命名实体识别。您可以尝试Apache OpenNLPApache UIMA,它们都具有 Apache 许可证。

于 2011-06-10T20:55:15.847 回答