问题标签 [gora]

cassandra - 网络爬虫,ruby,python,cassandra

我需要编写一个脚本,通过爬网将 100 万条用户名或电子邮件记录插入数据库。脚本可以是任何类型,如 python、ruby、php 等。



java - 什么是 gora 及其特点?

什么是戈拉?它对我们有什么作用?它如何与 hbase 一起工作?它有哪些特点?你知道可以帮助我的好文章或网页吗?

eclipse - nutch2.0 与 cassandra

我只是在 cassandra 上运行 nutch2.0。是crawl的输出,TestGoreStorage的输出如下:

我可以将 cassandra 与 cassandra-cli 连接起来,然后从 svn 中查看 nutch。这是 gora.properties 中的效果配置:

和 gora-cassandra-mapping 中的配置:是我集群的一个节点,集群名称是“我的集群”,更多信息:关闭防火墙,在eclipse中运行。如果有人给我任何帮助,我很高兴。

hadoop - Nutch2.0依赖设置

我在部署模式下使用 Nutch2.0 抓取 URL:

  1. 我用 Ant 构建 Nutch
  2. 我将 Nutch-2.0.job 与 Hadoop 一起使用。


  1. sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.crawl.InjectorJob /user/bluesky/nutch/urls

  2. sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.crawl.GeneratorJob

  3. sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.fetcher.FetcherJob (batch -id)


java - Apache Gora - 创建 hbase 数据存储时出现 java.net.MalformedURLException

我正在构建一个使用 Gora-hbase 作为后端的项目。Hbase 已启动并正在运行。我没有使用 maven 或 ivy 。

我还在 /conf/gora.properties 中指定了以下内容:

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore gora.datastore.autocreateschema=true


datastore = DataStoreFactory.getDataStore(long.class,UserDetails.class,new Configuration());



cassandra - Nutch 2.1 cassandra 后端生成错误

我选择了 cassandra 作为后端并开始使用 nutch。

DMOZ url 的一小部分(~50k),所有(注入、生成、获取)运行良好。

然而,在我注入整个 DMOZ url 集 (~3.5M) 并尝试生成一个 fetchlist 后,我​​得到了以下错误,该错误在另一个系统上可以重现:


据我所知,我没有用完磁盘空间。/tmp 分区有 250G 可用空间,运行 cassandra 的分区有 2.5T 可用空间。有没有可能增加详细程度?另外,我想知道 ArrayOutOfBoundsException 并没有告诉它试图访问的边界,什么也没有。密钥空间网页已存在,我可以使用 cassandra-cli 访问它。这是 readdb -stats 的输出:

java - Nutch 2.2.1 + hBase

我正在尝试运行新版本的 Apache Nutch 进行爬行。当我启动脚本 /bin/crawl 时,它失败并且 hadoop.log 说:

java.lang.Exception:java.lang.NoSuchMethodError:org.apache.gora.persistency.Persistent.getSchema()Lorg/apache/avro/Schema;在 org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354) 引起:java.lang.NoSuchMethodError: org.apache.gora.persistency.Persistent.getSchema()Lorg/apache/avro/Schema ; 在 org.apache.gora.hbase.store.HBaseStore.put(HBaseStore.java:177)


我应该在 ivy.xml 中设置一些 gora 工件吗?请帮我。

hadoop - 在 hadoop 模式下运行 nutch 时,nutch gora 类不在




hadoop - Nutch and HBase for production

I am currently using Nutch 2.2.1 and HBase 0.90.4. I am expecting around 300K urls from about 10 URLS in seed. I have already generated so much while using Nutch 1.6. Since I want to manipulate data, I preferred to go Nutch 2.2.1 + HBase route. But I get all sorts of weird errors and crawl doesn't seem to progress.

Various errors such as:

  1. zookeeper.ClientCnxn - Session for server null, unexpected error, closing socket connection and attempting reconnect. - I get this more frequently

  2. bin/crawl: line 164: killed - I get this error from fetch step and the crawling gets killed all of a sudden.

  3. RSS parse error

I am using a all-in-one crawl command - bin/crawl urls 1 http://localhost:8983/solr/ 10

Please suggest where am I going wrong. I have Nutch 2.2.1 installed and HBase (standalone) installed as per the Quick start guide recommended from Nutch site. I am not sure following HBase 0.90.4 standalone set up from Quick start guide link is sufficient to achieve 300K crawled urls.

Edit # 1: RSS Parse Error - log information

Error tika.TikaParser - Error parsing http://www.###.###.##/###/abc.xml org.apache.tika.exception.TikaException: RSS parse error

solr - 使用 Gora 集成 Nutch-Hbase 和 Solr

我已经按照 nutch2 教程成功地将 nutch 与 HBase 集成我的问题是当我 ./nutch crawl urls/seed.txt abc -depth 50 -topN 50runtime/local/bin目录中使用以下命令抓取 url 时,

发生了错误 :
