问题标签 [gora]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
cassandra - 网络爬虫,ruby,python,cassandra
我需要编写一个脚本,通过爬网将 100 万条用户名或电子邮件记录插入数据库。脚本可以是任何类型,如 python、ruby、php 等。
请让我知道是否可能?如果可能,请提供如何构建脚本的信息。
谢谢
java - 什么是 gora 及其特点?
什么是戈拉?它对我们有什么作用?它如何与 hbase 一起工作?它有哪些特点?你知道可以帮助我的好文章或网页吗?
eclipse - nutch2.0 与 cassandra
我只是在 cassandra 上运行 nutch2.0。是crawl的输出,TestGoreStorage的输出如下:
我可以将 cassandra 与 cassandra-cli 连接起来,然后从 svn 中查看 nutch。这是 gora.properties 中的效果配置:
和 gora-cassandra-mapping 中的配置:
210.44.138.8是我集群的一个节点,集群名称是“我的集群”,更多信息:关闭防火墙,在eclipse中运行。如果有人给我任何帮助,我很高兴。
hadoop - Nutch2.0依赖设置
我在部署模式下使用 Nutch2.0 抓取 URL:
- 我用 Ant 构建 Nutch
- 我将 Nutch-2.0.job 与 Hadoop 一起使用。
我运行了以下命令:
sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.crawl.InjectorJob /user/bluesky/nutch/urls
sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.crawl.GeneratorJob
sudo -u hdfs hadoop jar /home/bluesky/nutch/runtime/deploy/apache-nutch-2.0.job org.apache.nutch.fetcher.FetcherJob (batch -id)
但是当我运行最后一个命令时,它在日志中给了我错误:
java - Apache Gora - 创建 hbase 数据存储时出现 java.net.MalformedURLException
我正在构建一个使用 Gora-hbase 作为后端的项目。Hbase 已启动并正在运行。我没有使用 maven 或 ivy 。
我还在 /conf/gora.properties 中指定了以下内容:
gora.datastore.default=org.apache.gora.hbase.store.HBaseStore gora.datastore.autocreateschema=true
在我的代码中,我使用以下代码来启动数据存储:
datastore = DataStoreFactory.getDataStore(long.class,UserDetails.class,new Configuration());
我在上面的行中遇到以下异常:
有什么我遗漏或不知道的吗?
任何帮助或建议表示赞赏。
cassandra - Nutch 2.1 cassandra 后端生成错误
我选择了 cassandra 作为后端并开始使用 nutch。
DMOZ url 的一小部分(~50k),所有(注入、生成、获取)运行良好。
然而,在我注入整个 DMOZ url 集 (~3.5M) 并尝试生成一个 fetchlist 后,我得到了以下错误,该错误在另一个系统上可以重现:
日志/hadoop.log:
据我所知,我没有用完磁盘空间。/tmp 分区有 250G 可用空间,运行 cassandra 的分区有 2.5T 可用空间。有没有可能增加详细程度?另外,我想知道 ArrayOutOfBoundsException 并没有告诉它试图访问的边界,什么也没有。密钥空间网页已存在,我可以使用 cassandra-cli 访问它。这是 readdb -stats 的输出:
java - Nutch 2.2.1 + hBase
我正在尝试运行新版本的 Apache Nutch 进行爬行。当我启动脚本 /bin/crawl 时,它失败并且 hadoop.log 说:
java.lang.Exception:java.lang.NoSuchMethodError:org.apache.gora.persistency.Persistent.getSchema()Lorg/apache/avro/Schema;在 org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:354) 引起:java.lang.NoSuchMethodError: org.apache.gora.persistency.Persistent.getSchema()Lorg/apache/avro/Schema ; 在 org.apache.gora.hbase.store.HBaseStore.put(HBaseStore.java:177)
这是日志:
我应该在 ivy.xml 中设置一些 gora 工件吗?请帮我。
hadoop - 在 hadoop 模式下运行 nutch 时,nutch gora 类不在
当我尝试
我收到以下错误...
有人可以帮我解决错误吗?
hadoop - Nutch and HBase for production
I am currently using Nutch 2.2.1 and HBase 0.90.4. I am expecting around 300K urls from about 10 URLS in seed. I have already generated so much while using Nutch 1.6. Since I want to manipulate data, I preferred to go Nutch 2.2.1 + HBase route. But I get all sorts of weird errors and crawl doesn't seem to progress.
Various errors such as:
zookeeper.ClientCnxn - Session for server null, unexpected error, closing socket connection and attempting reconnect. - I get this more frequently
bin/crawl: line 164: killed - I get this error from fetch step and the crawling gets killed all of a sudden.
RSS parse error
I am using a all-in-one crawl command - bin/crawl urls 1 http://localhost:8983/solr/ 10
Please suggest where am I going wrong. I have Nutch 2.2.1 installed and HBase (standalone) installed as per the Quick start guide recommended from Nutch site. I am not sure following HBase 0.90.4 standalone set up from Quick start guide link is sufficient to achieve 300K crawled urls.
Edit # 1: RSS Parse Error - log information
Error tika.TikaParser - Error parsing http://www.###.###.##/###/abc.xml org.apache.tika.exception.TikaException: RSS parse error
solr - 使用 Gora 集成 Nutch-Hbase 和 Solr
我已经按照 nutch2 教程成功地将 nutch 与 HBase 集成我的问题是当我
./nutch crawl urls/seed.txt abc -depth 50 -topN 50
在runtime/local/bin
目录中使用以下命令抓取 url 时,
发生了错误 :
请给我解决方案。任何解决方案将不胜感激。