1

我正在尝试建立书籍聚合门户。Nutch 为我提供了出色的网络爬虫,但我想要非常具体的信息,例如书名、书价、ISBN、作者等。如何从爬取的页面中提取这些信息?如果可能,我想以 XML 格式获取此信息。

除了上述之外,我想问一下这是否是正确的做法!可以用其他开源软件以更好的方式完成吗?

4

1 回答 1

0

这取决于数据的结构。

我假设您主要是在抓取 HTML 页面。

通常您可以使用XPath来抓取页面的某些部分,例如“//div[@class='books']/a/text()”

如果大部分文本是非结构化的(没有可抓取的结构化 HTML 模式),那么您将不得不使用正则表达式或信息提取。

如果幸运的话,您可以使用正则表达式完成部分/大部分操作。

对于一些更复杂的结构,您需要使用信息提取/命名实体识别。

你必须训练一个 IE 工具,比如斯坦福大学的 CoreNLP来识别书名并在你的文档中注释它们。另请查看BRAT 快速注释工具

像 Mozenda 这样的服务可以为你做爬取和 X-Path 的工作,但是我还没有看到提供 IE 服务的公司。

于 2013-04-10T19:11:43.490 回答