问题标签 [accumulo]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 如何在 OS X 10.7.4 上安装和运行 Accumulo 和 Hadoop
所以我正在尝试运行 MapReduce,字数统计示例,但我需要运行 Hadoop。我尝试按照此处的说明进行操作,但似乎不起作用。问题是没有设置环境变量。我在其中添加了该行setenv HADOOP_HOME /opt/hadoop-0.20.2
,/etc/launchd.conf
但是当我运行echo $HADOOP_HOME
它时它不会打印路径。
hadoop - 运行 accumulo init 时出错
我有 Hadoop 和 Zookeeper 运行 w/oa 问题但是当我去运行时$ACCUMULO_HOME/bin/accumulo init
,会发生这种情况:
我找不到任何有用的东西。
mongodb - NoSQL 用于时间序列/记录的仪器读取数据,也是版本化的
我的数据
它主要是监控数据,以时间戳的形式传递:值,对于每个受监控的值,在每个受监控的设备上。它定期收集在许多设备和许多监控值上。
此外,它还有一个古怪的特点,即许多这些数据值是从源头导出的,计算会不时发生变化。这意味着我的数据被有效地版本化,并且我需要能够仅从最新版本的计算中调用数据。 注意:这不是覆盖旧值的版本控制。我只是有时间戳截止,超出了数据会改变它的含义。
我的使用
在下游,我将对数据进行各种未定义的数据挖掘/机器学习用途。目前还不清楚这些用途是什么,但很明显我将用 Python 编写所有下游代码。此外,我们是一家非常小的商店,所以我真的只能处理设置、维护和与下游应用程序接口方面的复杂性。我们只是没有那么多人。
选择
我不允许使用 SQL RDBMS 来存储这些数据,所以我必须找到合适的 NoSQL 解决方案。这是我到目前为止发现的:
- 卡桑德拉
- 在我看来完全没问题,但似乎一些主要用户已经继续前进。这让我想知道它是否不会成为一个充满活力的生态系统。这篇 SE 帖子似乎有好话要说:Cassandra time series data
- 累积
- 同样,这似乎很好,但我担心这不是一个主要的、积极开发的平台。看起来这会让我对工具和文档感到有点饥渴。
- MongoDB
- 我对 Mongo 人群有一种可能是非理性的强烈厌恶,我正在寻找任何理由放弃它作为解决方案。在我看来,Mongo 的数据模型对于具有这种静态、规则结构的事物来说都是错误的。我的数据甚至按顺序排列(并且必须保持不变)。也就是说,每个人和他们的母亲似乎都喜欢这个东西,所以我真的在尝试评估它的适用性。请参阅这篇文章和许多其他 SE 帖子:What NoSQL DB to use for sparse Time Series like data?
- HBase
- 这就是我目前正在倾斜的地方。它似乎是 Cassandra 的继任者,它为我的问题提供了一种完全可用的方法。也就是说,它是一项重要的技术,如果我选择它,我担心真的知道我要注册的是什么。
- 开放TSDB
- 这基本上是一个时间序列特定的数据库,建立在 HBase 之上。完美,对吧?我不知道。我试图弄清楚另一层抽象能给我带来什么。
我的标准
- 开源
- 与 Python 配合得很好
- 适合小团队
- 非常有据可查
- 具有利用有序时间序列数据的特定功能
- 帮助我解决一些我的版本化数据问题
那么,哪个 NoSQL 数据库实际上可以帮助我满足我的需求?它可以是任何东西,无论是否来自我的列表。我只是想了解哪个平台实际上有代码,而不仅仅是使用模式,它们支持我的超级具体、很好理解的需求。我不是在问哪个最好或哪个更酷。我试图了解哪种技术最能原生存储和操作此类数据。
有什么想法吗?
accumulo - 配置 accumulo 时的问题
在我的系统中,Hadoop 和 zookeeper 工作正常。现在我刚刚配置了 Accumulo。但是当我要初始化 Accumulo 时
累积初始化
它显示以下错误。
任何人都可以帮我解决这个问题... ??
maven - 谁能给我建议?我尝试使用 maven 进行编译并收到此消息以及“构建失败”消息
无法在项目 accumulo-core 上执行目标 org.codehaus.mojo:exec-maven-plugin:1.2.1:exec (generate-core-thrift):命令执行失败。无法运行程序“C:\Documents and Settings\deepak\trunk\core\src\main\thrift\thrift.sh”(在目录“C:\Documents and Settings\deepak\trunk\core”中):CreateProcess 错误=193 , %1 不是有效的 Win32 应用程序 -> [帮助 1]
我去了包含 pom.xml 的目录trunk并执行: mvn compile
我尝试在http://maven.apache.org/plugins/找到插件,但找不到任何 .
谁能解释一下问题是什么?这些开源的东西太复杂了。
accumulo - 如何删除累积的实例?
我在通过调用accumulo init初始化 accumulo 时创建了一个实例 但是现在我想删除该实例,并且我还想创建一个新实例。任何人都可以帮助做到这一点吗?
hadoop - 当谈到 mapreduce 时,Accumulo tablet 是如何映射到 HDFS 块的
如果我的环境设置如下:
-64MB HDFS 块
-5 个平板服务器
-10 个平板,每个平板服务器大小为 1GB
如果我有如下表:
rowA | f1 | q1 | v1
行 A | f1 | q2 | v2
行 B | f1 | q1 | v3
行C | f1 | q1 | v4
行C | f2 | q1 | v5
行C | f3 | q3 | v6
从小文档中,我知道有关 rowA 的所有数据都将进入一个平板电脑,该平板电脑可能包含也可能不包含有关其他行的数据,即全部或不包含。所以我的问题是:
平板电脑如何映射到 Datanode 或 HDFS 块?显然,一个平板电脑被分成多个 HDFS 块(在这种情况下为 8 个),所以它们将存储在相同或不同的数据节点上还是无关紧要?
在上面的示例中,关于 RowC(或 A 或 B)的所有数据会进入同一个 HDFS 块还是不同的 HDFS 块?
在执行 map reduce 作业时,我会得到多少个映射器?(每个 hdfs 块一个?或每个平板电脑?或每个服务器?)
提前感谢您的任何和所有建议。
regex - 如何使用 RegEx 过滤 Accumulo 上的扫描
我以前对存储在 Accumulo 中的数据使用过扫描,并且已经取回了整个结果集(无论Range
我指定什么)。问题是,我想在客户端收到它们之前从 Accumulo 过滤服务器端的那些。我希望有人有一个简单的代码示例来说明这是如何完成的。
据我了解,Filter
提供了一些(全部?)此功能,但在实践中如何使用 API?我从这里的 Accumulo 文档中看到了在 shell 客户端上使用 Filter 的示例:http: //accumulo.apache.org/user_manual_1.3-incubating/examples/filter.html
我在网上找不到任何代码示例,说明一种基于正则表达式过滤任何数据的扫描的简单方法,尽管我认为这应该是相对容易做的事情。
java - 连接外部 Accumulo 实例和 java
我正在尝试使用 Accumulo 连接到 VM。问题是,我无法将它连接到 Java 中。我可以看到 Apache 抛出的网页,但我无法让它与代码一起使用。我认为这是缺乏知识问题而不是真正的问题,但我找不到有关它的文档。所有示例都使用 localhost 作为 zooServer 名称,这显然对我不起作用。
所以,这是我的代码:
其余的并不重要,因为我无法连接到服务器。
这也是用 Groovy 编写的。我刚刚为 Java 人员更改了我的代码。
编辑:该程序驻留在我的电脑上。Accumulo、Hadoop 和 Zookeeper 都在 VM 上。它的 ip 是那个 IP,而实例名称是那个名字。在 accumulo 的配置中,'accumulo-02' 是 master、slave 等的域...
log4j - 警告找不到记录器的附加程序(org.apache.accumulo.start.classloader.AccumuloClassLoader)
有谁知道如何在启动 accumulo 时摆脱以下警告:
我正在运行 accumulo 1.4.0 hadoop 0.20.2 和 zookeeper 3.3.3。我理解这个警告的发生是因为类找不到 log4j.properties 文件,是的,我已经阅读了http://logging.apache.org/log4j/1.2/manual.html。我的 log4j.properties 文件包含从 accumulo 1.4.3 log4j 文件复制的以下行(我没有将系统升级到 1.4.3 的选项):
我已经把这个 log4j 文件给大家了。在 accumulo/bin 文件夹中,在 accumulo/conf 文件夹中,在 accumulo/lib 文件夹中,但无法摆脱此警告(我知道它必须在 accumulo 类路径上,但不知道在哪里)。我也无法将 log4j.configuration 选项传递给 java 编译器,因为 accmulo 可执行文件是预编译的(我只是运行它)。
在此先感谢您的帮助。
编辑:下面是我系统上“accumulo classpath”命令的结果: