问题标签 [hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - 哪种 Hadoop 产品更适合对大型数据集进行快速查询?
我正在研究 Hadoop,看看它的哪些产品适合我们对大型数据集(每组数十亿条记录)进行快速查询的需求
查询将针对芯片测序数据执行。每条记录是文件中的一行。为了清楚起见,下面显示了数据集中的示例记录。
一行(记录)看起来像:
突出显示的字段称为“匹配位置”,我们感兴趣的查询是该“匹配位置”的一定范围内的序列#。例如,范围可以是“匹配位置”> 200 和“匹配位置”+ 36 < 200,000。
关于我应该开始完成任务的 Hadoop 产品有什么建议吗?HBase、Pig、Hive 还是 ...?
java - 分布式作业调度、管理和报告
我最近玩了Hadoop,对 MapReduce 作业的调度、管理和报告印象深刻。它似乎使新作业的分配和执行非常无缝,使开发人员可以专注于他们的作业的实施。
我想知道 Java 域中是否存在任何用于分布式执行作业的东西,这些作业不容易表示为 MapReduce 问题?例如:
需要任务协调和同步的作业。例如,它们可能涉及任务的顺序执行,但同时执行一些任务是可行的:
/li>您想要分发但不提供任何输出以减少的 CPU 密集型任务 - 例如图像转换/调整大小。
那么有没有提供这种分布式计算环境的Java框架/平台呢?或者使用 Hadoop 是否可以接受/实现这种事情 - 如果是的话,这些工作是否有任何模式/指南?
hudson - 如何在为 hudson 安装 hadoop 插件产生的 hdfs 上设置访问控制
我安装了启用 hadoop 的 hudson 插件。现在我发现我自己无权将任何数据放在那里。对我来说,哈德森如何配置 hadoop 一点也不明显。有人可以告诉我如何更改这些权限吗?
eclipse - 为HadoopDB建立Eclipse项目环境
我已经从SourceForge签出了一个名为HadoopDB的项目。它在另一个名为 Hive 的项目中使用了一些类。我已经使用 Eclipse Java 构建路径设置将源链接到 Hive 项目根文件夹,但是 HadooDB 项目中的类有一些错误:
我应该将 Hive 根文件夹链接到 HadoopDB 源选项卡或任何其他文件夹吗?
java - 爬网引擎架构 - Java/Perl 集成
我正在寻找围绕我们的 webcrawling perl 脚本开发一个管理和管理解决方案。基本上,现在我们的脚本保存在 SVN 中,并由 SysAdmin/devs 等手动启动。每次我们需要从新来源检索数据时,我们都必须创建一个包含业务指令和目标的工单。正如您可以想象的那样,这不是最佳解决方案。
该系统有 3 个一致的主题:
- 数据检索具有“概念结构”,因为缺少更好的短语,即信息检索遵循特定路径
- 我们只是在寻找非常具体的信息,因此我们不必担心一段时间内的大量爬网(想想成千上万的页面与数百万的页面)
- 抓取是基于 url 而不是基于站点的。
随着我将此 alpha 版本增强为更生产级的 beta,我希望添加数据检索的自动化和管理。此外,我们的其他系统是 Java(我更精通),我想对 perl 方面进行划分,这样我们就不必严重依赖外部帮助。
我已经评估了通常的嫌疑人Nutch、Droid等,但花在修改这些框架以适应我们特定信息检索的时间是不合理的。
所以我想听听您对以下架构的看法。
我想创建一个解决方案
- 使用 Java 作为管理和执行 perl 脚本的接口
- 使用 Java 进行配置和数据访问
- 坚持使用 perl 进行检索
一个示例用例是
- 数据分析师向我们提出了爬虫的要求
- perl 开发人员创建所需的脚本并使用此 webapp 提交脚本(保存到文件系统)
- 脚本从带有特定参数的 webapp 启动....
webapp应该能够创建perl脚本的多个线程来启动多个爬虫。
所以问题是
- 你怎么看
- Java 和 Perl 之间的集成有多牢固,特别是从 java 调用 perl
- 有人使用过这样的系统,它实际上是 perl 存储库的一部分
真正的目标是不要有一大堆杂乱无章的 perl 脚本,并对我们的信息检索进行一些管理和组织。另外,我知道我可以使用 perl 做我们想要的 web 部分——但正如我之前提到的——试图让 perl 保持专注。但看起来我并不反对把它变成一个全 perl 的解决方案。
接受任何所有建议和意见。
谢谢
aggregate - Elastic MapReduce 中可用的 reducer
我希望我以正确的方式问这个问题。我正在学习围绕 Elastic MapReduce 的方法,并且我已经看到许多关于可与“流”作业流程一起使用的“聚合”减速器的参考资料。
在 Amazon 的“Amazon Elastic MapReduce 简介”PDF 中,它指出“Amazon Elastic MapReduce 有一个名为聚合的默认减速器”
我想知道的是:是否有其他可用的默认减速器?
我知道我可以编写自己的减速器,但我不想最终编写已经存在的东西并“重新发明轮子”,因为我确信我的轮子不会像原来的那样好。
storage - 可扩展的图像存储
我目前正在为基于 Web 的应用程序设计一个架构,该架构还应该提供某种图像存储。用户将能够上传照片作为该服务的主要功能之一。查看这些图像也是主要用途之一(通过网络)。
但是,我不确定如何在我的应用程序中实现这种可扩展的图像存储组件。我已经考虑过不同的解决方案,但由于缺少经验,我期待听到您的建议。除了图像,还必须保存元数据。以下是我的初步想法:
使用像 HDFS 这样的(分布式)文件系统,并准备专用的网络服务器作为“文件系统客户端”,以保存上传的图像和服务请求。图像元数据保存在一个附加数据库中,包括每个图像的文件路径信息。
在 HDFS 之上使用 HBase 等面向 BigTable 的系统,并将图像和元数据一起保存。同样,网络服务器桥接图像上传和请求。
使用像 CouchDB 这样完全无模式的数据库来存储图像和元数据。此外,使用基于 HTTP 的 RESTful API 使用数据库本身进行上传和交付。(附加问题:CouchDB 确实通过 Base64 保存 blob。但是它能否以图像/jpeg 等形式返回数据)?
servlets - Hadoop 之上的 Servlet 容器?
我正处于一个大项目的架构阶段,我决定使用 hbase 作为我的数据库,并将使用 map/reduce 作业进行处理,因此我的架构完全在 hadoop 下工作。
问题是我还需要实现一些 REST、SOAP API 的一些网页,所以我在想是否有任何 servlet 容器运行在 hadoop 之上,这样我的系统就可以保持冗余和分布式,而不必担心辅助集群机制(因为我已经为hadoop设置了一个)。
那么是否有任何 servlet 容器在 hadoop 之上运行,例如 hbase(一个数据库)在 hadoop 之上运行?
streaming - AWS 上 MapReduce 的 Hadoop 或 Hadoop 流
我即将开始一个将在 AWS 上运行的 mapreduce 项目,我可以选择使用 Java 或 C++。
我知道用 Java 编写项目会为我提供更多功能,但是 C++ 也可以通过 Hadoop Streaming 实现它。
请注意,我对这两种语言都没有多少背景。一个类似的项目已经用 C++ 完成,代码可供我使用。
所以我的问题是:这个额外的功能是通过 AWS 提供的,还是只有在你对云有更多控制权的情况下才相关?为了做出决定,我还有什么需要记住的,比如 hadoop 插件的可用性,可以更好地使用一种语言或另一种语言?
提前致谢
hadoop - 使用 Hadoop 将 word 文档转换为 pdf
假设我想将 1000 个 word 文件转换为 pdf,那么使用 Hadoop 来解决这个问题是否有意义?与简单地使用多个 EC2 实例和作业队列相比,使用 Hadoop 有什么优势吗?
此外,如果有 1 个文件和 10 个空闲节点,那么 hadoop 会拆分文件并将其发送到 10 个节点,还是将文件仅发送到 1 个节点而 9 个节点空闲?