我对 nutch 很陌生。我已经使用 nutch 1.2 成功爬取了一个站点,并通过readseg命令提取了段转储,但问题是转储包含许多除 url 和外链接以外的信息,如果我想分析它,则需要采用手动方法。如果有任何实用程序插件,它会以机器可读格式(如 csv 或 sql)导出链接而没有链接,那将是非常棒的。请建议
问问题
465 次
1 回答
0
通常,您必须编写自己的应用程序来执行此操作。您可以提供额外的标志来删除不必要的数据。
http://wiki.apache.org/nutch/bin/nutch%20readseg
在此处查看哪些标志可用于减少数据。
或者使用 hadoop FS 库编写自己的应用程序会更好,然后以编程方式直接提取信息。
于 2013-10-13T15:16:10.280 回答