1

我正在使用 Heritrix 3.1.0 爬行。我正在尝试使用 MirrorWriterProcessor 保存文件。但是,此选项在 crawler-beans.cxml 中不可用。

我所做的是将“warcWriter”“org.archive.modules.writer.WARCWriterProcessor”替换为“org.archive.modules.writer.MirrorWriterProcessor”

但是,此处理器将镜像内容写入 $HERITRIX_HOME/mirror

我将“路径”配置为“${launchId}/mirror”,希望Heritrix将镜像目录写入job目录下。

我应该怎么做才能将 MirrorWriterProcessor 的路径更改为作业目录下?

4

1 回答 1

0

目前,您不能使用 warcWritter 接受的标签。但是,您可以编写一些 spring 魔术来创建自己的标记文件夹。这将为 SimpleDateFormat 的格式函数创建一个工厂,并输出一个字符串,您可以使用它来创建一个标记文件夹。

<bean id="dateFormat" class="java.text.SimpleDateFormat">
  <constructor-arg value="ddMMyyyy" />
</bean>
<bean id="formatedDate" factory-bean="dateFormat" factory-method="format">
  <constructor-arg>
    <bean class="java.util.Date" />
  </constructor-arg>
</bean>
<bean id="mirrorWriter" class="org.archive.modules.writer.MirrorWriterProcessor">
  <property name="path">
    <bean class="java.lang.String">
      <constructor-arg value="#{formatedDate + '/mirror'}" />
    </bean>
  </property>
...
于 2013-07-22T22:19:20.183 回答