问题标签 [hadoop]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
3170 浏览

java - 不使用 CachedRowSetImpl.execute() 复制 ResultSet

我试图在执行查询后关闭连接。之前,我只是创建一个CachedRowSetImpl实例,它会为我释放资源。但是,我正在使用来自 Hadoop 项目的 Hive 数据库驱动程序。它不支持CachedRowSetImpl.execute()。我想知道是否有任何其他方法可以让我复制ResultSet对象并关闭连接?

0 投票
4 回答
65004 浏览

algorithm - MapReduce 排序算法是如何工作的?

用于展示 MapReduce 功能的主要示例之一是Terasort 基准。我无法理解 MapReduce 环境中使用的排序算法的基础知识。

对我来说,排序只是确定一个元素相对于所有其他元素的相对位置。因此,排序涉及将“一切”与“一切”进行比较。您的平均排序算法(快速、冒泡、...)只是以一种聪明的方式完成此操作。

在我看来,将数据集分成许多部分意味着您可以对单个部分进行排序,然后您仍然必须将这些部分整合到“完整”的完全排序的数据集中。鉴于分布在数千个系统上的 TB 数据集,我预计这将是一项艰巨的任务。

那么这到底是怎么做到的呢?这个 MapReduce 排序算法是如何工作的?

谢谢你帮助我理解。

0 投票
1 回答
924 浏览

java - Java 泛型和 Hadoop:如何获取类变量

我是一名 .NET 程序员,在 Java 中做一些 Hadoop 工作,我有点迷失在这里。在 Hadoop 中,我正在尝试设置 Map-Reduce 作业,其中 Map 作业的输出键类型为Tuple<IntWritable,Text>. 当我使用 setOutputKeyclass 设置输出键时,如下所示

我得到了一大堆错误,因为泛型和“.class”符号似乎并不适用。以下工作正常

有人对如何设置输出键类有任何指示吗?

干杯,于尔根

0 投票
5 回答
459 浏览

hadoop - 处理千兆字节的数据

我将开始一个新项目。我需要在 .NET 应用程序中处理数百个数据。现在要提供有关该项目的更多详细信息还为时过早。一些概述如下:

  1. 在同一张表上进行大量写入和读取,非常实时
  2. 扩展非常重要,因为客户端非常频繁地坚持扩展数据库服务器,因此,应用程序服务器也是如此
  3. 可以预见,可以实现在聚合查询方面的大量使用
  4. 每行数据可能包含很多要处理的属性

我建议/有以下作为解决方案:

  1. 使用分布式哈希表类型的持久性(不是 S3,而是内部的)
  2. 对跨节点的任何分析过程使用 Hadoop/Hive likes(.NET 中的任何替代品?)
  3. ASP.NET/Silverlight 中的 Impelement GUI(有很多 ajaxification,只要需要)

你们有什么感想?我在这里有意义吗?

0 投票
10 回答
9725 浏览

hadoop - 流数据和 Hadoop?(不是 Hadoop 流)

我想使用 MapReduce 方法分析连续的数据流(通过 HTTP 访问),所以我一直在研究 Apache Hadoop。不幸的是,Hadoop 似乎希望以固定大小的输入文件开始作业,而不是能够在新数据到达时将其交给消费者。真的是这样吗,还是我错过了什么?是否有不同的 MapReduce 工具可以处理从打开的套接字读取的数据?可伸缩性是这里的一个问题,所以我更愿意让 MapReducer 处理混乱的并行化问题。

我玩过Cascading并且能够在通过 HTTP 访问的静态文件上运行作业,但这实际上并不能解决我的问题。我可以使用 curl 作为中间步骤,将数据转储到 Hadoop 文件系统的某个位置,并编写一个看门狗来在每次准备好新数据块时启动新作业,但这是一个肮脏的 hack;必须有一些更优雅的方式来做到这一点。有任何想法吗?

0 投票
1 回答
1327 浏览

amazon-s3 - Hadoop 输入文件

在运行hadoop时,在输入文件夹中有n个文件,每个文件有1行,与输入文件夹中有1个文件有n行有区别吗?

如果有 n 个文件,“InputFormat”是否将其全部视为 1 个连续文件?

0 投票
3 回答
1546 浏览

hadoop - 如何在 Map Rreduce Hadoop 中使用输入日志 .PCAP(二进制)

日志 Tcpdump 是二进制文件,我想知道我应该使用什么 FileInputFormat 的 hadoop 来分割输入数据......请帮助我!

0 投票
2 回答
339 浏览

hadoop - 将文件从本地复制到 hdfs 时出现 Hadoop DFS 错误

有人可以告诉我我做错了什么吗?

0 投票
2 回答
1105 浏览

hadoop - Hadoop DFS 权限错误

当我尝试将一些文件从我的 LFS 放到 HDFS 时,为什么我不断收到这个错误?

0 投票
1 回答
95 浏览

hadoop - 将 LAN 上的视频分发到备用位置 - 浏览器可以检测到这一点吗?

我是公司 Intranet 的管理员,我想开始制作视频。但是,我们的位置之间的带宽隧道非常小,我想避免通过多个用户的流式视频来占用它。

我想将文件同步到每个位置的服务器。然后我希望浏览器(或 Intranet)检测我所在的站点。从那里,我希望它从最近的位置请求视频。

我从来没有这样做过,并且想知道是否已经有解决方案。看起来 Hadoop 可能会这样做,但我想在我承诺学习它之前,我想从使用它的人那里听到这一点。