问题标签 [gora]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

49 问题

0 投票

3 回答

916 浏览

cassandra - 网络爬虫，ruby，python，cassandra

我需要编写一个脚本，通过爬网将 100 万条用户名或电子邮件记录插入数据库。脚本可以是任何类型，如 python、ruby、php 等。

请让我知道是否可能？如果可能，请提供如何构建脚本的信息。

谢谢

2010-12-27T09:16:29.693

0 投票

1 回答

452 浏览

java - 什么是 gora 及其特点？

什么是戈拉？它对我们有什么作用？它如何与 hbase 一起工作？它有哪些特点？你知道可以帮助我的好文章或网页吗？

java hbase gora

2011-03-01T11:13:29.603

0 投票

1 回答

757 浏览

eclipse - nutch2.0 与 cassandra

我只是在 cassandra 上运行 nutch2.0。是crawl的输出，TestGoreStorage的输出如下：

我可以将 cassandra 与 cassandra-cli 连接起来，然后从 svn 中查看 nutch。这是 gora.properties 中的效果配置：

和 gora-cassandra-mapping 中的配置：

210.44.138.8是我集群的一个节点，集群名称是“我的集群”，更多信息：关闭防火墙，在eclipse中运行。如果有人给我任何帮助，我很高兴。

eclipse cassandra nutch gora

2012-09-17T10:44:49.423

0 投票

0 回答

310 浏览

hadoop - Nutch2.0依赖设置

我在部署模式下使用 Nutch2.0 抓取 URL：

我用 Ant 构建 Nutch
我将 Nutch-2.0.job 与 Hadoop 一起使用。

我运行了以下命令：

sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.crawl.InjectorJob /user/bluesky/nutch/urls
sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.crawl.GeneratorJob
sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.fetcher.FetcherJob (batch -id)

但是当我运行最后一个命令时，它在日志中给了我错误：

hadoop nutch gora

2012-10-09T10:43:58.860

0 投票

1 回答

659 浏览

java - Apache Gora - 创建 hbase 数据存储时出现 java.net.MalformedURLException

我正在构建一个使用 Gora-hbase 作为后端的项目。Hbase 已启动并正在运行。我没有使用 maven 或 ivy 。

我还在 /conf/gora.properties 中指定了以下内容：

gora.datastore.default=org.apache.gora.hbase.store.HBaseStore gora.datastore.autocreateschema=true

在我的代码中，我使用以下代码来启动数据存储：

datastore = DataStoreFactory.getDataStore(long.class,UserDetails.class,new Configuration());

我在上面的行中遇到以下异常：

有什么我遗漏或不知道的吗？
任何帮助或建议表示赞赏。

java hbase gora

2013-02-05T07:27:18.827

0 投票

0 回答

447 浏览

cassandra - Nutch 2.1 cassandra 后端生成错误

我选择了 cassandra 作为后端并开始使用 nutch。

DMOZ url 的一小部分（~50k），所有（注入、生成、获取）运行良好。

然而，在我注入整个 DMOZ url 集 (~3.5M) 并尝试生成一个 fetchlist 后，我得到了以下错误，该错误在另一个系统上可以重现：

日志/hadoop.log：

据我所知，我没有用完磁盘空间。/tmp 分区有 250G 可用空间，运行 cassandra 的分区有 2.5T 可用空间。有没有可能增加详细程度？另外，我想知道 ArrayOutOfBoundsException 并没有告诉它试图访问的边界，什么也没有。密钥空间网页已存在，我可以使用 cassandra-cli 访问它。这是 readdb -stats 的输出：

cassandra nutch gora

2013-04-25T16:08:40.913

0 投票

1 回答

2102 浏览

java - Nutch 2.2.1 + hBase

我正在尝试运行新版本的 Apache Nutch 进行爬行。当我启动脚本 /bin/crawl 时，它失败并且 hadoop.log 说：

java.lang.Exception：java.lang.NoSuchMethodError：org.apache.gora.persistency.Persistent.getSchema()Lorg/apache/avro/Schema；在 org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354) 引起：java.lang.NoSuchMethodError: org.apache.gora.persistency.Persistent.getSchema()Lorg/apache/avro/Schema ; 在 org.apache.gora.hbase.store.HBaseStore.put(HBaseStore.java:177)

这是日志：

我应该在 ivy.xml 中设置一些 gora 工件吗？请帮我。

java hbase nutch gora

2013-07-04T14:23:14.133

0 投票

1 回答

635 浏览

hadoop - 在 hadoop 模式下运行 nutch 时，nutch gora 类不在

当我尝试

我收到以下错误...

有人可以帮我解决错误吗？

hadoop nutch gora

2013-07-09T07:09:25.590

0 投票

0 回答

493 浏览

hadoop - Nutch and HBase for production

I am currently using Nutch 2.2.1 and HBase 0.90.4. I am expecting around 300K urls from about 10 URLS in seed. I have already generated so much while using Nutch 1.6. Since I want to manipulate data, I preferred to go Nutch 2.2.1 + HBase route. But I get all sorts of weird errors and crawl doesn't seem to progress.

Various errors such as:

zookeeper.ClientCnxn - Session for server null, unexpected error, closing socket connection and attempting reconnect. - I get this more frequently
bin/crawl: line 164: killed - I get this error from fetch step and the crawling gets killed all of a sudden.
RSS parse error

I am using a all-in-one crawl command - bin/crawl urls 1 http://localhost:8983/solr/ 10

Please suggest where am I going wrong. I have Nutch 2.2.1 installed and HBase (standalone) installed as per the Quick start guide recommended from Nutch site. I am not sure following HBase 0.90.4 standalone set up from Quick start guide link is sufficient to achieve 300K crawled urls.

Edit # 1: RSS Parse Error - log information

Error tika.TikaParser - Error parsing http://www.###.###.##/###/abc.xml org.apache.tika.exception.TikaException: RSS parse error

hadoop hbase nutch gora

2013-10-03T21:02:49.113

0 投票

1 回答

752 浏览

solr - 使用 Gora 集成 Nutch-Hbase 和 Solr

我已经按照 nutch2 教程成功地将 nutch 与 HBase 集成我的问题是当我 ./nutch crawl urls/seed.txt abc -depth 50 -topN 50在runtime/local/bin目录中使用以下命令抓取 url 时，

发生了错误：

请给我解决方案。任何解决方案将不胜感激。

solr hbase nutch gora

2013-10-18T07:04:29.823

1 2 3 4 5 6 7 8 9 10

问题标签 [gora]

Reference