2

我对 nutch 很陌生。我已经使用 nutch 1.2 成功爬取了一个站点,并通过readseg命令提取了段转储,但问题是转储包含许多除 url 和外链接以外的信息,如果我想分析它,则需要采用手动方法。如果有任何实用程序插件,它会以机器可读格式(如 csv 或 sql)导出链接而没有链接,那将是非常棒的。请建议

4

1 回答 1

0

通常,您必须编写自己的应用程序来执行此操作。您可以提供额外的标志来删除不必要的数据。

http://wiki.apache.org/nutch/bin/nutch%20readseg

在此处查看哪些标志可用于减少数据。

或者使用 hadoop FS 库编写自己的应用程序会更好,然后以编程方式直接提取信息。

http://wiki.apache.org/hadoop/SequenceFile

于 2013-10-13T15:16:10.280 回答