问题标签 [hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
7781 浏览

apache - 使用 Apache Mahout 机器学习库

在过去的几周里,我在空闲时间一直在使用 Apache Mahout 机器学习库。我很想知道其他人如何使用这些库。

0 投票
3 回答
10881 浏览

hadoop - 在 PIG (Hadoop) 中将输入拆分为子字符串

假设我在 Pig 中有以下输入:

我想将其转换为:

我还没有(还)找到一种方法来迭代猪拉丁语中的字符数组。我找到了 TOKENIZE 函数,但它在单词边界上分裂。那么“pig latin”可以做到这一点,还是需要Java类才能做到这一点?

0 投票
7 回答
18686 浏览

hadoop - 清除 Hadoop 中的 DFS

如何清除 Hadoop 中的 DFS?

0 投票
4 回答
2617 浏览

java - Hadoop 分布差异

有人可以概述各种可用的 Hadoop 发行版之间的各种差异:

使用 Apache Hadoop 发行版作为基准。

是否有充分的理由在标准 Apache Hadoop 发行版上使用这些发行版之一?

0 投票
5 回答
8149 浏览

hadoop - OLAP 可以在 BigTable 中做吗?

过去,我曾经使用在 MySQL 上运行的 OLAP 多维数据集构建 WebAnalytics。现在,我使用的 OLAP 多维数据集只是一个大表(好吧,它的存储比那更智能),其中每一行基本上是一个测量值或一组测量值的聚合。每个度量都有一堆维度(即哪个页面名称、用户代理、ip 等)和一堆值(即有多少浏览量、多少访问者等)。

您在这样的表上运行的查询通常采用以下形式(元 SQL):

因此,您可以使用提到的过滤器获得所选日期的每个小时的总数。一个障碍是这些立方体通常意味着全表扫描(各种原因),这意味着您可以制作这些东西的大小(以 MiB 为单位)的实际限制。

我目前正在学习 Hadoop 等的来龙去脉。

在 BigTable 上将上述查询作为 mapreduce 运行看起来很简单:只需将“小时”作为键,在映射中过滤并通过对值求和来减少。

您能否在 BigTable 类型的系统上“实时”(即通过用户界面并且用户尽快得到他们的答案)而不是批处理模式运行我上面显示的查询(或至少具有相同的输出)?

如果不; 在 BigTable/Hadoop/HBase/Hive 等领域做这样的事情的合适技术是什么?

0 投票
1 回答
172 浏览

multithreading - 在 BDB 中并行查找多个文件的值

在 BDB 中并行查找多个文件的值的最有效方法是什么?如果我有一个 Perl 脚本一次对一个文件执行此操作,那么在 Linux 中使用 & 符号在后台分叉/运行该进程是否有效?

如何使用 Hadoop 来解决这个问题?

线程会是另一种解决方案吗?

0 投票
4 回答
6583 浏览

sql - HBase 中的高级查询

鉴于以下 HBase 模式场景(来自官方常见问题解答)......

您将如何为两个实体(例如学生和课程)之间的多对多关联设计 Hbase 表?

我会定义两个表:

学生:学生 ID 学生数据(姓名、地址、...)课程(此处使用课程 ID 作为列限定符)

课程:课程 ID 课程数据(姓名、教学大纲、...)学生(此处使用学生 ID 作为列限定符)

此架构使您可以快速访问查询,显示学生的所有班级(学生表、课程家庭)或班级的所有学生(课程表、学生家庭)。

您将如何满足要求:“给我所有共享至少两门共同课程的学生”?您能否在 HBase 中构建一个“查询”来返回该集合,或者您是否必须检索所有相关数据并自己在代码中处理?

0 投票
3 回答
40529 浏览

java - Hadoop 上的 Java 与 Python

我正在开发一个使用 Hadoop 的项目,它似乎本身就包含 Java 并为 Python 提供流式支持。选择其中一个是否会对性能产生重大影响?我在这个过程中已经足够早了,如果一种或另一种方式存在显着的性能差异,我可以采取任何一种方式。

0 投票
2 回答
1826 浏览

hadoop - CloudStore 与 HDFS

有没有人熟悉使用CloudStore和 HDFS。我有兴趣了解 CloudStore 的扩展程度以及它在生产中的使用程度。CloudStore 似乎比 HDFS 功能更全。在考虑这两个文件系统时,有哪些实际的权衡?

0 投票
3 回答
8114 浏览

hadoop - 获取当前运行的 Hadoop 任务的任务尝试 ID

Hadoop 教程的Task Side-Effect Files部分提到使用任务的“attemptid”作为唯一名称。如何在我的映射器或减速器中获取此尝试 ID?