0

在关注此链接时,我收到此错误,但无法弄清楚 http://wiki.apache.org/nutch/NutchTutorial

runtime/local$ bin/nutch parse $s1 ParseSegment:从 2013-10-11 17:43:36 开始 ParseSegment:segment: crawl/segments/20131011173126 线程“main”中的异常 java.io.IOException:段已解析!在 org.apache.nutch.parse.ParseOutputFormat.checkOutputSpecs(ParseOutputFormat.java:89) 在 org.apache.hadoop.mapred.JobClient$2.run(JobClient.java:975) 在 org.apache.hadoop.mapred.JobClient$2 .run(JobClient.java:936) at java.security.AccessController.doPrivileged(Native Method) at javax.security.auth.Subject.doAs(Subject.java:415) at org.apache.hadoop.security.UserGroupInformation.doAs (UserGroupInformation.java:1190) 在 org.apache.hadoop.mapred.JobClient.submitJobInternal(JobClient.java:936) 在 org.apache.hadoop.mapred.JobClient.submitJob(JobClient.java:910) 在 org.apache。 hadoop.mapred.JobClient。

4

1 回答 1

0

当您要解析已解析的段时,会发生这种情况。请注意,如果您使用“crawl”命令,它也会解析段。

如果你真的想再次解析,只需删除段内的 crawl_parse 目录(即 crawl/segments/20131011173126/crawl_parse)并再次发出 parse 命令。

于 2013-10-13T07:08:05.930 回答