问题标签 [accumulo]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1129 浏览

java - 复杂的累加查询

给定一个键或键列表,为 accumulo 构建复杂的服务器端过滤器的方法是什么。

示例:filter afilter b

示例:filter aAND filter bOR filter cAND filter d?

这甚至可能吗?

0 投票
1 回答
632 浏览

hadoop - 在 Mac 上安装 Hadoop、ZooKeeper、AccumuLo

我正在尝试在装有 Mountain Lion 的 OS X 上安装这些技术以进行测试。该设置是使用“localhost”的单节点设置。

我遇到了几个问题...

1) 运行 sudo zkCli -> ls / 抛出错误

2) 我尝试运行 bin/accumulo init 并收到此错误...

我的课似乎有问题,但我不确定我需要做什么。

以下是 AccumuLo 编译的摘要:

0 投票
1 回答
2738 浏览

java - org.apache.thrift:无效的方法名称:'authenticate'

我正在运行用户手册中出现此错误的一些基本 Accumulo 代码。

一个简单的谷歌搜索没有提供任何有用的东西。

错误

代码日志

我可以在 accumulo 框中进行 SSH 会话,然后运行 ​​sudo ./accumulo shell -u -p 并进入 shell 实例。我不能使用相同的用户名和密码通过代码对 accumulo 实例进行身份验证。我在这里缺少什么吗?

0 投票
3 回答
2255 浏览

postgresql - 如何从 Postgres 数据库获取到 Hadoop 序列文件?

我需要从 Postgres 数据库获取数据到 Accumulo 数据库。我们希望使用序列文件来运行 map/reduce 作业来做到这一点,但不知道如何开始。出于内部技术原因,我们需要避免使用 Sqoop。

如果没有 Sqoop,这可能吗?同样,我真的不知道从哪里开始。我是否编写了一个 java 类来将所有记录(数百万)读入 JDBC 并以某种方式将其输出到 HDFS 序列文件?

感谢您的任何意见!

PS - 我应该提到使用分隔文件是我们现在遇到的问题。我们的一些是包含分隔符的长字符字段,因此无法正确解析。该字段甚至可能有一个选项卡。我们想从 Postgres 直接转到 HDFS 而无需解析。

0 投票
1 回答
926 浏览

java - 如何从 java 程序启动 Hadoop、Accumulo 和 ZooKeeper?

我正在尝试将 bash 脚本转换为 java 程序。在这个脚本中,我运行 Hadoop、Zookeeper 和 Accumulo 的启动脚本:

这很容易在脚本中完成。如果程序已经在运行,我可以再次调用这些启动脚本没有问题,程序将简单地输出它们已经在运行以及它们的 pid。

我试图弄清楚是否有办法在java程序中做到这一点。 Hadoop/ZooKeeper/Accumulo API 中是否有一些隐藏命令,我可以在其中运行 Class.run(configs),它会启动或尝试启动 Hadoop/ZooKeeper/Accumulo?

我的下一步是我可能可以使用 jsch 来运行 ssh 命令,但这似乎并没有真正将 bash 脚本抛在后面。

编辑:从java执行hadoop示例jar文件 在这个问题中,提问者正在使用运行时执行启动命令。这是启动 Hadoop 的合适方式吗?如果有要使用的命令,我宁愿使用本机 Hadoop API。

0 投票
1 回答
4877 浏览

java - 我的 Java 类中的 @Value 注释不会从 .properties 文件中加载值

在问这个问题之前,我尝试遵循以下类似的问题:

使用 Spring 和注解 @Value 注入属性

如何将属性值注入使用注释配置的 Spring Bean?

在 Spring 中将属性文件加载到类中

但是,就我而言,我没有使用任何 Web 应用程序或 Tomcat;我只是想通过 Spring 将 cluster.properties 文件加载到常规 Java 项目中,这样我就可以将虚拟数据摄取到 Accumulo 中。此外,我正在尝试从 cluster.properties 文件加载属性,而不是从 xml 文件中定义的键值对加载。

使用我从上面的链接中学到的知识以及关于 Spring 的大量阅读,这就是我所拥有的:

我创建了以下 context.xml 文件:

这是我的 cluster.properties 文件的一小部分:

接下来,我在 MainApp.java 类下创建了以下 Spring main 方法:

Spring 加载我的 context.xml 文件并加载我称为“props”的 Bean,但值仍然为空。看来我的 @Value 注释在我的 LoadProperties 类中不起作用:

然而,当我在 Eclipse 中运行 MainApp.java 时,当我的 Ingester.java 类调用 getter 时,这些值为 null。

这是我在 Eclipse 中运行 MainApp.java 时的控制台输出:

我是否缺少在我的 cluster.properties 文件中加载属性的 Spring 框架的一部分?我曾尝试将@AutoWired 添加到我的 MainApp 和 LoadProperties java 类中,但这似乎没有帮助。

0 投票
1 回答
68 浏览

java - 是否可以将一个对象的实例与一个文件相关联,而它正在由仅映射的映射作业进行映射?

我想使用一个 HashSet 在映射时对一个文件存在/起作用,然后在映射下一个文件时重置/重新创建。我已修改 TextInputFormat 以覆盖 isSplitable 以返回 false,这样文件就不会被拆分,而是由 Mappers 整体处理。有可能做这样的事情吗?还是有另一种方法可以减少对 Accumulo 表的写入?

让我从我不相信我想要一个全局变量开始。我只想确保唯一性,从而在我的 Accumulo 表中写入更少的突变。

我的项目是将分片示例中的 Index.java 文件的功能从线性 accumulo 客户端程序转换为使用 mapreduce 功能的程序,同时仍然在 Accumulo 中创建相同的表。它需要 mapreduce,因为这是流行语,本质上它比针对 TB 数据的线性程序运行得更快。

以下是索引代码供参考: http: //grepcode.com/file/repo1.maven.org/maven2/org.apache.accumulo/examples-simple/1.4.0/org/apache/accumulo/examples/simple/分片/Index.java

该程序使用 BatchWriter 将 Mutations 写入 Accumulo 并在每个文件的基础上进行。为了确保它不会写入不必要的突变并确保唯一性(尽管我确实相信 Accumulo 最终会通过压缩合并相同的键),Index.java 有一个 HashSet 用于确定之前是否已经运行过一个单词。这一切都比较容易理解。

转移到仅 map 的 mapreduce 作业更加复杂。

这是我的映射尝试,从我看到的 Accumulo 表的部分输出来看,这似乎有点工作,但与线性程序 Index.java 相比,它的运行速度真的很慢

缓慢的问题可能是我在一个测试实例上运行所有这些,这是一个带有 ZooKeeper 和 Accumulo 的单节点 Hadoop 实例。如果是这样,我只需要找到唯一性的解决方案。

非常感谢提供的任何帮助或建议。

0 投票
2 回答
1095 浏览

mysql - 我怎样才能有效地处理十亿条记录

我有一个性能问题,在使用选择查询处理十亿条记录时,我有一个表

我使用了分区,它将通过细分表来提高性能,但在我的情况下它没有用,我的示例选择在这个表中

这里的 content_id 相对于 parent_dept 是唯一的,所以我使用 parent_depth 作为分区的键。在每个深度我有 2577833 行要处理,所以这里分区没有用,我从网站上得到了一个使用存档存储引擎的想法但它会使用全表扫描而不是在选择中使用索引,基本上 99% 我在这个表中使用选择查询,这个表每天都会增加它的计数。目前我在 mysql 数据库中,它有 5.0.1 版本。我对使用 nosql 数据库有一个想法,但是有什么方法可以在 mysql 中处理,如果你建议 nosql 意味着我可以使用 cassandra 还是 accumulo ?

0 投票
4 回答
1058 浏览

accumulo - Accumulo 是否支持聚合?

我是 Accumulo 的新手。我知道我可以使用 Hadoop 和 MapReduce 编写 Java 代码来扫描、插入、更新和删除数据。我想知道的是Accumulo中是否可以进行聚合。

我知道在 MySql 中我们可以使用groupby, orderby, max, min, count, sum, joins, 嵌套查询等。它们是否有可能直接或间接在 Accumulo 中使用这些函数。

0 投票
2 回答
602 浏览

c# - Accumulo createBatchScanner 范围未按预期工作

我不能让批处理扫描仪只扫描特定的行,当设置启动和停止键到同一件事时,我没有得到任何条目,当使用扫描仪时,我得到了这个异常:

“java.lang.IllegalArgumentException:开始键必须小于范围内的结束键(测试:[] 0 false,测试:[] 0 false)”...

我在 Visual Studio 2010 中用 C# 编写,并在项目中使用 Thrift(版本 0.9.1.1)和 Accumulo(版本 1.5.0)proxy.thrift 代码。

这是我的代码,一切“正常”,但我没有得到任何条目client.nextK

Accumulo 1.5 的用户手册显示了这个代码片段,这与我正在做的相同(但在 C# 中):(http://accumulo.apache.org/1.5/accumulo_user_manual.html#_basic_table