4
Named Entity Extraction (extract ppl, cities, organizations)
Content Tagging (extract topic tags by scanning doc)
Structured Data Extraction
Topic Categorization (taxonomy classification by scanning doc....bayesian )
Text extraction (HTML page cleaning)

有没有我可以用来执行 NLP 的上述任何功能的库?

真的不想向 AlchemyAPI 支付现金

4

2 回答 2

8

实际上有很多免费可用的开源自然语言处理包。这是一个简短的列表,按工具包的实现语言组织:

如果您不确定要使用哪一个,我建议您从 NLTK开始。该软件包相当易于使用,并且在线上有大量文档,包括一本免费书籍

您应该能够使用 NLTK 轻松完成您列出的 NLP 任务,例如命名实体识别 (NER)提取文档标签文档分类

Alchemy 人所说的结构化数据提取看起来只是 HTML 报废,只要页面仍然以相同的方式呈现,它就可以抵抗对底层 HTML 的更改。所以,这不是一个真正的 NLP 任务。

要从 HTML 中提取文本,只需使用boilerpipe。它快速、良好且免费。

于 2010-04-21T01:34:52.970 回答
1

Apache UIMA项目最初是由 IBM 创建的,它提供了一个非常类似于 GATE 的 NLP 框架。有各种为 UIMA 构建的注释器。

于 2010-04-22T13:32:32.250 回答