问题标签 [accumulo]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
opencv - 我可以在不使用临时文件的情况下对 Accumulo 数据进行集群吗?
我想对我们在 Accumulo 中的一些数据执行 kmeans 聚类。我的第一个想法是在 Apache Mahout 中使用 kmeans 集群,但我很难在不使用临时文件的情况下连接两者。据我所知,为了使用 Mahout,我需要将 Accumulo 数据写入存储在 HDFS 中的一系列矢量文件,然后使用 Mahout 对它们进行聚类,然后将结果写回 Accumulo(Mahout 入口点似乎都采用了指向目录的路径)。虽然我还没有尝试过,但这似乎是一场性能噩梦。有没有更好的办法?或者,是否有其他可用的 kmeans 集群库可以更轻松地连接到 Accumulo?我现在正在研究 opencv,但欢迎提出其他建议。
apache - Accumulo——添加一个新节点
我正在尝试学习Accumulo。但是我有几个我无法直接找到的问题:
- 首先,我们能否在不停机的情况下向现有的 Accumulo 系统添加新服务器?如果是,则新节点将由 master 安排其共享(DB 数据);对?由于它具有故障恢复功能,我相信这将是自动的。
- 我们可以定义复制的数量或整个数据与某些故障恢复系统本身共享吗?如何了解复制和数据分发过程的详细信息?
非常感谢 :)
java - 如何在 YARN Spark 作业中设置环境变量?
我正在尝试使用with从Apache Spark作业(用 Java 编写)访问Accumulo 1.6。为了做到这一点,我必须通过调用该方法来告诉ZooKeeper 的位置。此方法接受一个指定各种相关属性的对象。AccumuloInputFormat
newAPIHadoopRDD
AccumuloInputFormat
setZooKeeperInstance
ClientConfiguration
我ClientConfiguration
通过调用静态loadDefault
方法来创建我的对象。这个方法应该在不同的地方寻找一个client.conf
文件来加载它的默认值。它应该看的地方之一是$ACCUMULO_CONF_DIR/client.conf
。
因此,我试图设置ACCUMULO_CONF_DIR
环境变量,使其在 Spark 运行作业时可见(作为参考,我试图在yarn-cluster
部署模式下运行)。我还没有找到成功的方法。
到目前为止,我已经尝试过:
- 呼吁
setExecutorEnv("ACCUMULO_CONF_DIR", "/etc/accumulo/conf")
_SparkConf
- 出口
ACCUMULO_CONF_DIR
_spark-env.sh
- 设置
spark.executorEnv.ACCUMULO_CONF_DIR
_spark-defaults.conf
他们都没有工作。当我在调用之前打印环境时setZooKeeperInstance
,ACCUMULO_CONF_DIR
不会出现。
如果相关,我正在使用所有内容的CDH5版本。
这是我正在尝试做的一个示例(为简洁起见,省略了导入和异常处理):
mongodb - 在 mongodb 中强制执行编辑和/或编辑更新
在 Accumulo 中,您可以强制执行Authorizations
和/或服务器端迭代器返回的记录。
有哪些机制可以在 MongoDb 中实施这种类型的安全性?我知道有$redact
聚合管道的命令,但这依赖于用户限制他们自己的查询。
此外,您如何强制某人不对他们没有足够权限更新的文档进行更新?
ip-address - Accumulo tserver 仅在 localhost 上侦听
从远程主机连接到 Accumulo (1.6.1) 时,Zookeeper 报告 tserver 位于 localhost:9997。
前任:
accumulo - 如何确定 Accumulo 表的可见性?
我们有一个 Accumulo 实例,其中一些表的数据是用我们当前用户都没有的可见性令牌编写的。由于各种原因,我们不知道表中的所有可见性字符串/标记是什么。因此,我们有孤立的数据。他们是 Accumulo 根用户或其他用户确定给定表中数据的可见性字符串的一种方式,而无需他们已经分配了这些令牌?
java - Accumulo中如何覆盖SortedKeyValueIterator接口的功能?
我正在尝试创建一个自定义迭代器,但由于没有可用的教程,我查看了 Accumulo github 页面上提供的代码。
在那里我发现所有类都实现了 SortedKeyValueIterator 并覆盖了它的功能。
这些函数的作用是什么,在创建实现 SortedKeyValueIterator 的新类时重写这些函数时应该采用什么方法。
这是我试图理解的 RowFilter 类的示例代码。
我想知道,这段代码做了什么,如果我想要另一个类来实现 SortedKeyValueIterator,我应该如何覆盖这些函数。
java - 如何对 Accumulo 中的列限定符字段执行聚合?
假设我在 Accumulo 中有一个这样的表:
如果我在此表上应用 SummingCombiner 并插入一行“ a cf1 cq1 2
”,那么我会得到以下结果:
我想知道的是是否有一个迭代器可以帮助我对特定字段(如列限定符)执行聚合。
简而言之,我可以执行类似“ Sum of the values of those rows where column qualifier is cq1
”的查询吗?
如果这种查询没有现成的迭代器,我应该如何为它创建自定义迭代器?
accumulo - How to use a WholeRowIterator as the source of another iterator?
I am trying to filter out columns after using a WholeRowIterator to filter rows. This is to remove columns that were useful in determining which row to keep, but not useful in the data returned by the scan.
The WholeRowIterator does not appear to play nice as the source of another iterator such as a RegExFilter. I know the keys/values are encoded by the WholeRowIterator.
Are there any possible solutions to get this iterator stack to work?
Thanks.
java - 有没有办法在 Accumulo 的迭代器中调用迭代器?
我在两个表上应用了两个迭代器,并希望结果可用于第三个迭代器以进行进一步处理。
基本上我要执行的是跨两个表服务器端的连接查询。
前两个迭代器从 Accumulo 中过滤掉一些行(基于标准),第三个迭代器试图对结果集执行联接查询。