问题标签 [accumulo]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1092 浏览

hadoop - 如何在 OS X 10.7.4 上安装和运行 Accumulo 和 Hadoop

所以我正在尝试运行 MapReduce,字数统计示例,但我需要运行 Hadoop。我尝试按照此处的说明进行操作,但似乎不起作用。问题是没有设置环境变量。我在其中添加了该行setenv HADOOP_HOME /opt/hadoop-0.20.2/etc/launchd.conf但是当我运行echo $HADOOP_HOME它时它不会打印路径。

0 投票
2 回答
753 浏览

hadoop - 运行 accumulo init 时出错

我有 Hadoop 和 Zookeeper 运行 w/oa 问题但是当我去运行时$ACCUMULO_HOME/bin/accumulo init,会发生这种情况:

我找不到任何有用的东西。

0 投票
4 回答
3588 浏览

mongodb - NoSQL 用于时间序列/记录的仪器读取数据,也是版本化的

我的数据

它主要是监控数据,以时间戳的形式传递:值,对于每个受监控的值,在每个受监控的设备上。它定期收集在许多设备和许多监控值上。

此外,它还有一个古怪的特点,即许多这些数据值是从源头导出的,计算会不时发生变化。这意味着我的数据被有效地版本化,并且我需要能够仅从最新版本的计算中调用数据。 注意:这不是覆盖旧值的版本控制。我只是有时间戳截止,超出了数据会改变它的含义。

我的使用

在下游,我将对数据进行各种未定义的数据挖掘/机器学习用途。目前还不清楚这些用途是什么,但很明显我将用 Python 编写所有下游代码。此外,我们是一家非常小的商店,所以我真的只能处理设置、维护和与下游应用程序接口方面的复杂性。我们只是没有那么多人。

选择

我不允许使用 SQL RDBMS 来存储这些数据,所以我必须找到合适的 NoSQL 解决方案。这是我到目前为止发现的:

  1. 卡桑德拉
    • 在我看来完全没问题,但似乎一些主要用户已经继续前进。这让我想知道它是否不会成为一个充满活力的生态系统。这篇 SE 帖子似乎有好话要说:Cassandra time series data
  2. 累积
    • 同样,这似乎很好,但我担心这不是一个主要的、积极开发的平台。看起来这会让我对工具和文档感到有点饥渴。
  3. MongoDB
    • 我对 Mongo 人群有一种可能是非理性的强烈厌恶,我正在寻找任何理由放弃它作为解决方案。在我看来,Mongo 的数据模型对于具有这种静态、规则结构的事物来说都是错误的。我的数据甚至按顺序排列(并且必须保持不变)。也就是说,每个人和他们的母亲似乎都喜欢这个东西,所以我真的在尝试评估它的适用性。请参阅这篇文章和许多其他 SE 帖子:What NoSQL DB to use for sparse Time Series like data?
  4. HBase
    • 这就是我目前正在倾斜的地方。它似乎是 Cassandra 的继任者,它为我的问题提供了一种完全可用的方法。也就是说,它是一项重要的技术,如果我选择它,我担心真的知道我要注册的是什么。
  5. 开放TSDB
    • 这基本上是一个时间序列特定的数据库,建立在 HBase 之上。完美,对吧?我不知道。我试图弄清楚另一层抽象能给我带来什么。

我的标准

  • 开源
  • 与 Python 配合得很好
  • 适合小团队
  • 非常有据可查
  • 具有利用有序时间序列数据的特定功能
  • 帮助我解决一些我的版本化数据问题

那么,哪个 NoSQL 数据库实际上可以帮助我满足我的需求?它可以是任何东西,无论是否来自我的列表。我只是想了解哪个平台实际上有代码,而不仅仅是使用模式,它们支持我的超级具体、很好理解的需求。我不是在问哪个最好或哪个更酷。我试图了解哪种技术最能原生存储和操作此类数据。

有什么想法吗?

0 投票
2 回答
1050 浏览

accumulo - 配置 accumulo 时的问题

在我的系统中,Hadoop 和 zookeeper 工作正常。现在我刚刚配置了 Accumulo。但是当我要初始化 Accumulo 时

累积初始化

它显示以下错误。



任何人都可以帮我解决这个问题... ??

0 投票
2 回答
807 浏览

maven - 谁能给我建议?我尝试使用 maven 进行编译并收到此消息以及“构建失败”消息

无法在项目 accumulo-core 上执行目标 org.codehaus.mojo:exec-maven-plugin:1.2.1:exec (generate-core-thrift):命令执行失败。无法运行程序“C:\Documents and Settings\deepak\trunk\core\src\main\thrift\thrift.sh”(在目录“C:\Documents and Settings\deepak\trunk\core”中):CreateProcess 错误=193 , %1 不是有效的 Win32 应用程序 -> [帮助 1]

我去了包含 pom.xml 的目录trunk并执行: mvn compile

我尝试在http://maven.apache.org/plugins/找到插件,但找不到任何 .

谁能解释一下问题是什么?这些开源的东西太复杂了。

0 投票
2 回答
2458 浏览

accumulo - 如何删除累积的实例?

我在通过调用accumulo init初始化 accumulo 时创建了一个实例 但是现在我想删除该实例,并且我还想创建一个新实例。任何人都可以帮助做到这一点吗?

0 投票
2 回答
2792 浏览

hadoop - 当谈到 mapreduce 时,Accumulo tablet 是如何映射到 HDFS 块的

如果我的环境设置如下:
-64MB HDFS 块
-5 个平板服务器
-10 个平板,每个平板服务器大小为 1GB

如果我有如下表:
rowA | f1 | q1 | v1
行 A | f1 | q2 | v2

行 B | f1 | q1 | v3

行C | f1 | q1 | v4
行C | f2 | q1 | v5
行C | f3 | q3 | v6

从小文档中,我知道有关 rowA 的所有数据都将进入一个平板电脑,该平板电脑可能包含也可能不包含有关其他行的数据,即全部或不包含。所以我的问题是:

平板电脑如何映射到 Datanode 或 HDFS 块?显然,一个平板电脑被分成多个 HDFS 块(在这种情况下为 8 个),所以它们将存储在相同或不同的数据节点上还是无关紧要?

在上面的示例中,关于 RowC(或 A 或 B)的所有数据会进入同一个 HDFS 块还是不同的 HDFS 块?

在执行 map reduce 作业时,我会得到多少个映射器?(每个 hdfs 块一个?或每个平板电脑?或每个服务器?)

提前感谢您的任何和所有建议。

0 投票
1 回答
3756 浏览

regex - 如何使用 RegEx 过滤 Accumulo 上的扫描

我以前对存储在 Accumulo 中的数据使用过扫描,并且已经取回了整个结果集(无论Range我指定什么)。问题是,我想在客户端收到它们之前从 Accumulo 过滤服务器端的那些。我希望有人有一个简单的代码示例来说明这是如何完成的。

据我了解,Filter提供了一些(全部?)此功能,但在实践中如何使用 API?我从这里的 Accumulo 文档中看到了在 shell 客户端上使用 Filter 的示例:http: //accumulo.apache.org/user_manual_1.3-incubating/examples/filter.html

我在网上找不到任何代码示例,说明一种基于正则表达式过滤任何数据的扫描的简单方法,尽管我认为这应该是相对容易做的事情。

0 投票
1 回答
2686 浏览

java - 连接外部 Accumulo 实例和 java

我正在尝试使用 Accumulo 连接到 VM。问题是,我无法将它连接到 Java 中。我可以看到 Apache 抛出的网页,但我无法让它与代码一起使用。我认为这是缺乏知识问题而不是真正的问题,但我找不到有关它的文档。所有示例都使用 localhost 作为 zooServer 名称,这显然对我不起作用。

所以,这是我的代码:

其余的并不重要,因为我无法连接到服务器。

这也是用 Groovy 编写的。我刚刚为 Java 人员更改了我的代码。

编辑:该程序驻留在我的电脑上。Accumulo、Hadoop 和 Zookeeper 都在 VM 上。它的 ip 是那个 IP,而实例名称是那个名字。在 accumulo 的配置中,'accumulo-02' 是 master、slave 等的域...

0 投票
2 回答
5161 浏览

log4j - 警告找不到记录器的附加程序(org.apache.accumulo.start.classloader.AccumuloClassLoader)

有谁知道如何在启动 accumulo 时摆脱以下警告:

我正在运行 accumulo 1.4.0 hadoop 0.20.2 和 zookeeper 3.3.3。我理解这个警告的发生是因为类找不到 log4j.properties 文件,是的,我已经阅读了http://logging.apache.org/log4j/1.2/manual.html。我的 log4j.properties 文件包含从 accumulo 1.4.3 log4j 文件复制的以下行(我没有将系统升级到 1.4.3 的选项):

我已经把这个 log4j 文件给大家了。在 accumulo/bin 文件夹中,在 accumulo/conf 文件夹中,在 accumulo/lib 文件夹中,但无法摆脱此警告(我知道它必须在 accumulo 类路径上,但不知道在哪里)。我也无法将 log4j.configuration 选项传递给 java 编译器,因为 accmulo 可执行文件是预编译的(我只是运行它)。

在此先感谢您的帮助。

编辑:下面是我系统上“accumulo classpath”命令的结果: