1

我正在寻找信息提取库,我可以在其中拥有可能包含隐藏或不完整数据的半结构化信息。我想训练一些分类器根据结构提取内容。

我正在构建一个可以在浏览器中选择文本的工具,它将生成(通过一些 Web 服务调用)一个分类器,该分类器可用于其他文档以提取文本。

我主要研究如何使用文档的结构来指示内容是什么。

4

1 回答 1

1

听起来您正在寻找某种 html 解析器生成器。有一个 Web 服务(我不记得它的名字)可以让您选择页面上的区域,并会生成 xpath 解析规则,但我不确定它的工作情况如何,或者即使它仍然存在。

一般来说,如果你会写代码,你自己写一个解析器是最简单的。我推荐BeautifulSouplxml

于 2010-05-05T15:57:13.993 回答