是否有可以从文本正文中查找信息的最佳实践、算法或软件(需要许可许可证的开源......)?我指的是:
- 查找文本中的所有电子邮件地址
- 查找所有提及的城市
- 查找所有提及的州
- 查找所有网址
- 查找所有提及的电话号码
- 找到所有提到的邮政编码......能够添加更多......
我听说 RapidMiner 应该能够像这样进行文本挖掘,但 AGPL 不是我所接受的许可。
做这种分析有什么“标准”吗?
是否有可以从文本正文中查找信息的最佳实践、算法或软件(需要许可许可证的开源......)?我指的是:
我听说 RapidMiner 应该能够像这样进行文本挖掘,但 AGPL 不是我所接受的许可。
做这种分析有什么“标准”吗?
对于此类实体类型,您可以使用基于规则的 NER 工具,例如gexp。
阅读命名实体识别。您可以尝试Apache OpenNLP或Apache UIMA,它们都具有 Apache 许可证。