1

我需要在上述配置(主题)中为 EMR 安装 Nutch 2.3。

在本地计算机上完成:

  1. Nutch 2.x

1.1 svn 当前 2.x 版本

1.2. 准备好的脚本:

1.2.1 常春藤:

    依赖 org="org.apache.hadoop" name="hadoop-common" rev="2.4.0"
    依赖 org="org.apache.hadoop" name="hadoop-mapreduce-client-core" rev="2.4.0"
    依赖 org="org.apache.gora" name="gora" rev="0.5"  
    依赖 org="org.apache.gora" name="gora-hbase" rev="0.5"

1.2.2 default.properties:

hadoop.version=2.4.0
version=2.3-SNAPSHOT

1.3. 添加

public int getFieldsCount() { return Field.values().length; }

到 ProtocolStatus.java、ParseStatus.java、Host.java、WebPage.java。

  1. HBase

2.1 svn HBase 0.94.18

2.2 为 Protobuf 2.5.0 准备,也感谢 Dobromyslov [ https://github.com/dobromyslov ]

2.3还生成了hbase-0.94.18-hadoop-2.4.0.jar

  1. Gora 0.5(也从 com.argonio.gora 测试了 0.4、0.6-SNAPSHOT 和 0.5.3 版本)

  2. Avro 1.7.6(也可以使用 1.7.4、1.7.7 版本)

4.1 svn

为 AVRO-813 修补的 4.2

4.3 为 AVRO-882 打补丁并回滚

4.4 修补如 [1] - 评论抛出 EOFException 反对

org.apache.avro.io.BinaryDecoder.ensureBounds(BinaryDecoder.java:473),

等等

在无数次例外之后,Nutch 2.x 和 Avro 1.7.6 中进行了一些更改。

Nutch 看起来有点跑,但不稳定且不正确。

循环(注入、生成、获取、解析、更新b)已通过,但某些功能被破坏和忽略。

看来我打破了 Nutch 和 HBase 之间的正常数据交换(也与 gora 和 avro)。某些字段(和/或某些数据格式)读取和写入不正确。Fe 许多标记丢失(在代码中临时模拟);batchId 字段中的数据丢失;得分也破。

请帮忙!我已准备好发布我所有的差异和异常跟踪。

[1] http://mail-archives.apache.org/mod_mbox/nutch-user/201409.mbox/%3cCAEmTxX9HrRM00SxerFAdRdZy=wVAd9xCchDTuLaxPQ=wi0QEsw@mail.gmail.com%3e

4

1 回答 1

1

我们通过为conf/nutch-site.xmlEOFException中的属性设置旧的(即 hadoop-1.2.0)值解决了s 和不稳定的问题:io.serializations

<property>
  <name>io.serializations</name>
  <value>org.apache.hadoop.io.serializer.WritableSerialization</value>
  <description>A list of serialization classes that can be used for
  obtaining serializers and deserializers.</description>
</property>

事实证明,不需要修补 Avro。

于 2014-10-29T12:29:20.950 回答