“accumulo”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1092 浏览

hadoop - 如何在 OS X 10.7.4 上安装和运行 Accumulo 和 Hadoop

所以我正在尝试运行 MapReduce，字数统计示例，但我需要运行 Hadoop。我尝试按照此处的说明进行操作，但似乎不起作用。问题是没有设置环境变量。我在其中添加了该行setenv HADOOP_HOME /opt/hadoop-0.20.2，/etc/launchd.conf但是当我运行echo $HADOOP_HOME它时它不会打印路径。

2012-06-18T16:50:03.313

0 投票

2 回答

753 浏览

hadoop - 运行 accumulo init 时出错

我有 Hadoop 和 Zookeeper 运行 w/oa 问题但是当我去运行时$ACCUMULO_HOME/bin/accumulo init，会发生这种情况：

我找不到任何有用的东西。

hadoop apache-zookeeper accumulo

2012-06-19T02:35:42.283

0 投票

4 回答

3588 浏览

mongodb - NoSQL 用于时间序列/记录的仪器读取数据，也是版本化的

我的数据

它主要是监控数据，以时间戳的形式传递：值，对于每个受监控的值，在每个受监控的设备上。它定期收集在许多设备和许多监控值上。

此外，它还有一个古怪的特点，即许多这些数据值是从源头导出的，计算会不时发生变化。这意味着我的数据被有效地版本化，并且我需要能够仅从最新版本的计算中调用数据。 注意：这不是覆盖旧值的版本控制。我只是有时间戳截止，超出了数据会改变它的含义。

我的使用

在下游，我将对数据进行各种未定义的数据挖掘/机器学习用途。目前还不清楚这些用途是什么，但很明显我将用 Python 编写所有下游代码。此外，我们是一家非常小的商店，所以我真的只能处理设置、维护和与下游应用程序接口方面的复杂性。我们只是没有那么多人。

选择

我不允许使用 SQL RDBMS 来存储这些数据，所以我必须找到合适的 NoSQL 解决方案。这是我到目前为止发现的：

卡桑德拉
- 在我看来完全没问题，但似乎一些主要用户已经继续前进。这让我想知道它是否不会成为一个充满活力的生态系统。这篇 SE 帖子似乎有好话要说：Cassandra time series data
累积
- 同样，这似乎很好，但我担心这不是一个主要的、积极开发的平台。看起来这会让我对工具和文档感到有点饥渴。
MongoDB
- 我对 Mongo 人群有一种可能是非理性的强烈厌恶，我正在寻找任何理由放弃它作为解决方案。在我看来，Mongo 的数据模型对于具有这种静态、规则结构的事物来说都是错误的。我的数据甚至按顺序排列（并且必须保持不变）。也就是说，每个人和他们的母亲似乎都喜欢这个东西，所以我真的在尝试评估它的适用性。请参阅这篇文章和许多其他 SE 帖子：What NoSQL DB to use for sparse Time Series like data？
HBase
- 这就是我目前正在倾斜的地方。它似乎是 Cassandra 的继任者，它为我的问题提供了一种完全可用的方法。也就是说，它是一项重要的技术，如果我选择它，我担心真的知道我要注册的是什么。
开放TSDB
- 这基本上是一个时间序列特定的数据库，建立在 HBase 之上。完美，对吧？我不知道。我试图弄清楚另一层抽象能给我带来什么。

我的标准

开源
与 Python 配合得很好
适合小团队
非常有据可查
具有利用有序时间序列数据的特定功能
帮助我解决一些我的版本化数据问题

那么，哪个 NoSQL 数据库实际上可以帮助我满足我的需求？它可以是任何东西，无论是否来自我的列表。我只是想了解哪个平台实际上有代码，而不仅仅是使用模式，它们支持我的超级具体、很好理解的需求。我不是在问哪个最好或哪个更酷。我试图了解哪种技术最能原生存储和操作此类数据。

有什么想法吗？

mongodb cassandra hbase accumulo nosql

2012-06-23T02:59:33.160

0 投票

2 回答

1050 浏览

accumulo - 配置 accumulo 时的问题

在我的系统中，Hadoop 和 zookeeper 工作正常。现在我刚刚配置了 Accumulo。但是当我要初始化 Accumulo 时

累积初始化

它显示以下错误。

任何人都可以帮我解决这个问题... ??

accumulo

2012-07-06T10:52:49.407

0 投票

2 回答

807 浏览

maven - 谁能给我建议？我尝试使用 maven 进行编译并收到此消息以及“构建失败”消息

无法在项目 accumulo-core 上执行目标 org.codehaus.mojo:exec-maven-plugin:1.2.1:exec (generate-core-thrift)：命令执行失败。无法运行程序“C:\Documents and Settings\deepak\trunk\core\src\main\thrift\thrift.sh”（在目录“C:\Documents and Settings\deepak\trunk\core”中）：CreateProcess 错误=193 , %1 不是有效的 Win32 应用程序 -> [帮助 1]

我去了包含 pom.xml 的目录trunk并执行： mvn compile

我尝试在http://maven.apache.org/plugins/找到插件，但找不到任何 .

谁能解释一下问题是什么？这些开源的东西太复杂了。

maven accumulo

2012-07-19T11:10:42.927

0 投票

2 回答

2458 浏览

accumulo - 如何删除累积的实例？

我在通过调用accumulo init初始化 accumulo 时创建了一个实例但是现在我想删除该实例，并且我还想创建一个新实例。任何人都可以帮助做到这一点吗？

accumulo

2012-08-06T08:19:01.250

0 投票

2 回答

2792 浏览

hadoop - 当谈到 mapreduce 时，Accumulo tablet 是如何映射到 HDFS 块的

如果我的环境设置如下：
-64MB HDFS 块
-5 个平板服务器
-10 个平板，每个平板服务器大小为 1GB

如果我有如下表：
rowA | f1 | q1 | v1
行 A | f1 | q2 | v2

行 B | f1 | q1 | v3

行C | f1 | q1 | v4
行C | f2 | q1 | v5
行C | f3 | q3 | v6

从小文档中，我知道有关 rowA 的所有数据都将进入一个平板电脑，该平板电脑可能包含也可能不包含有关其他行的数据，即全部或不包含。所以我的问题是：

平板电脑如何映射到 Datanode 或 HDFS 块？显然，一个平板电脑被分成多个 HDFS 块（在这种情况下为 8 个），所以它们将存储在相同或不同的数据节点上还是无关紧要？

在上面的示例中，关于 RowC（或 A 或 B）的所有数据会进入同一个 HDFS 块还是不同的 HDFS 块？

在执行 map reduce 作业时，我会得到多少个映射器？（每个 hdfs 块一个？或每个平板电脑？或每个服务器？）

提前感谢您的任何和所有建议。

hadoop mapreduce accumulo

2012-12-04T22:08:42.543

0 投票

1 回答

3756 浏览

regex - 如何使用 RegEx 过滤 Accumulo 上的扫描

我以前对存储在 Accumulo 中的数据使用过扫描，并且已经取回了整个结果集（无论Range我指定什么）。问题是，我想在客户端收到它们之前从 Accumulo 过滤服务器端的那些。我希望有人有一个简单的代码示例来说明这是如何完成的。

据我了解，Filter提供了一些（全部？）此功能，但在实践中如何使用 API？我从这里的 Accumulo 文档中看到了在 shell 客户端上使用 Filter 的示例：http: //accumulo.apache.org/user_manual_1.3-incubating/examples/filter.html

我在网上找不到任何代码示例，说明一种基于正则表达式过滤任何数据的扫描的简单方法，尽管我认为这应该是相对容易做的事情。

regex accumulo

2013-01-16T18:29:53.727

0 投票

1 回答

2686 浏览

java - 连接外部 Accumulo 实例和 java

我正在尝试使用 Accumulo 连接到 VM。问题是，我无法将它连接到 Java 中。我可以看到 Apache 抛出的网页，但我无法让它与代码一起使用。我认为这是缺乏知识问题而不是真正的问题，但我找不到有关它的文档。所有示例都使用 localhost 作为 zooServer 名称，这显然对我不起作用。

所以，这是我的代码：

其余的并不重要，因为我无法连接到服务器。

这也是用 Groovy 编写的。我刚刚为 Java 人员更改了我的代码。

编辑：该程序驻留在我的电脑上。Accumulo、Hadoop 和 Zookeeper 都在 VM 上。它的 ip 是那个 IP，而实例名称是那个名字。在 accumulo 的配置中，'accumulo-02' 是 master、slave 等的域...

java apache-zookeeper accumulo

2013-03-19T16:31:30.687

0 投票

2 回答

5161 浏览

log4j - 警告找不到记录器的附加程序（org.apache.accumulo.start.classloader.AccumuloClassLoader）

有谁知道如何在启动 accumulo 时摆脱以下警告：

我正在运行 accumulo 1.4.0 hadoop 0.20.2 和 zookeeper 3.3.3。我理解这个警告的发生是因为类找不到 log4j.properties 文件，是的，我已经阅读了http://logging.apache.org/log4j/1.2/manual.html。我的 log4j.properties 文件包含从 accumulo 1.4.3 log4j 文件复制的以下行（我没有将系统升级到 1.4.3 的选项）：

我已经把这个 log4j 文件给大家了。在 accumulo/bin 文件夹中，在 accumulo/conf 文件夹中，在 accumulo/lib 文件夹中，但无法摆脱此警告（我知道它必须在 accumulo 类路径上，但不知道在哪里）。我也无法将 log4j.configuration 选项传递给 java 编译器，因为 accmulo 可执行文件是预编译的（我只是运行它）。

在此先感谢您的帮助。

编辑：下面是我系统上“accumulo classpath”命令的结果：

log4j accumulo

2013-04-04T20:16:14.693

问题标签 [accumulo]

我的数据

我的使用

选择

我的标准

Reference