“hadoop”的相关标签问题_Stack Overflow中文网

0 投票

4 回答

681 浏览

hadoop - 哪种 Hadoop 产品更适合对大型数据集进行快速查询？

我正在研究 Hadoop，看看它的哪些产品适合我们对大型数据集（每组数十亿条记录）进行快速查询的需求

查询将针对芯片测序数据执行。每条记录是文件中的一行。为了清楚起见，下面显示了数据集中的示例记录。

一行（记录）看起来像：

突出显示的字段称为“匹配位置”，我们感兴趣的查询是该“匹配位置”的一定范围内的序列#。例如，范围可以是“匹配位置”> 200 和“匹配位置”+ 36 < 200,000。

关于我应该开始完成任务的 Hadoop 产品有什么建议吗？HBase、Pig、Hive 还是 ...？

hadoop

2009-12-12T03:12:41.537

0 投票

6 回答

11371 浏览

java - 分布式作业调度、管理和报告

我最近玩了Hadoop，对 MapReduce 作业的调度、管理和报告印象深刻。它似乎使新作业的分配和执行非常无缝，使开发人员可以专注于他们的作业的实施。

我想知道 Java 域中是否存在任何用于分布式执行作业的东西，这些作业不容易表示为 MapReduce 问题？例如：

需要任务协调和同步的作业。例如，它们可能涉及任务的顺序执行，但同时执行一些任务是可行的：
/li>
您想要分发但不提供任何输出以减少的 CPU 密集型任务 - 例如图像转换/调整大小。

那么有没有提供这种分布式计算环境的Java框架/平台呢？或者使用 Hadoop 是否可以接受/实现这种事情 - 如果是的话，这些工作是否有任何模式/指南？

2009-12-16T14:12:05.290

0 投票

1 回答

388 浏览

hudson - 如何在为 hudson 安装 hadoop 插件产生的 hdfs 上设置访问控制

我安装了启用 hadoop 的 hudson 插件。现在我发现我自己无权将任何数据放在那里。对我来说，哈德森如何配置 hadoop 一点也不明显。有人可以告诉我如何更改这些权限吗？

hudson hadoop

2009-12-19T20:08:25.040

0 投票

1 回答

415 浏览

eclipse - 为HadoopDB建立Eclipse项目环境

我已经从SourceForge签出了一个名为HadoopDB的项目。它在另一个名为 Hive 的项目中使用了一些类。我已经使用 Eclipse Java 构建路径设置将源链接到 Hive 项目根文件夹，但是 HadooDB 项目中的类有一些错误：

我应该将 Hive 根文件夹链接到 HadoopDB 源选项卡或任何其他文件夹吗？

eclipse hadoop

2009-12-20T10:09:41.960

0 投票

3 回答

1335 浏览

java - 爬网引擎架构 - Java/Perl 集成

我正在寻找围绕我们的 webcrawling perl 脚本开发一个管理和管理解决方案。基本上，现在我们的脚本保存在 SVN 中，并由 SysAdmin/devs 等手动启动。每次我们需要从新来源检索数据时，我们都必须创建一个包含业务指令和目标的工单。正如您可以想象的那样，这不是最佳解决方案。

该系统有 3 个一致的主题：

数据检索具有“概念结构”，因为缺少更好的短语，即信息检索遵循特定路径
我们只是在寻找非常具体的信息，因此我们不必担心一段时间内的大量爬网（想想成千上万的页面与数百万的页面）
抓取是基于 url 而不是基于站点的。

随着我将此 alpha 版本增强为更生产级的 beta，我希望添加数据检索的自动化和管理。此外，我们的其他系统是 Java（我更精通），我想对 perl 方面进行划分，这样我们就不必严重依赖外部帮助。

我已经评估了通常的嫌疑人Nutch、Droid等，但花在修改这些框架以适应我们特定信息检索的时间是不合理的。

所以我想听听您对以下架构的看法。

我想创建一个解决方案

使用 Java 作为管理和执行 perl 脚本的接口
使用 Java 进行配置和数据访问
坚持使用 perl 进行检索

一个示例用例是

数据分析师向我们提出了爬虫的要求
perl 开发人员创建所需的脚本并使用此 webapp 提交脚本（保存到文件系统）
脚本从带有特定参数的 webapp 启动....

webapp应该能够创建perl脚本的多个线程来启动多个爬虫。

所以问题是

你怎么看
Java 和 Perl 之间的集成有多牢固，特别是从 java 调用 perl
有人使用过这样的系统，它实际上是 perl 存储库的一部分

真正的目标是不要有一大堆杂乱无章的 perl 脚本，并对我们的信息检索进行一些管理和组织。另外，我知道我可以使用 perl 做我们想要的 web 部分——但正如我之前提到的——试图让 perl 保持专注。但看起来我并不反对把它变成一个全 perl 的解决方案。

接受任何所有建议和意见。

谢谢

java perl hadoop nutch web-crawler

2009-12-22T06:55:55.837

0 投票

2 回答

4610 浏览

aggregate - Elastic MapReduce 中可用的 reducer

我希望我以正确的方式问这个问题。我正在学习围绕 Elastic MapReduce 的方法，并且我已经看到许多关于可与“流”作业流程一起使用的“聚合”减速器的参考资料。

在 Amazon 的“Amazon Elastic MapReduce 简介”PDF 中，它指出“Amazon Elastic MapReduce 有一个名为聚合的默认减速器”

我想知道的是：是否有其他可用的默认减速器？

我知道我可以编写自己的减速器，但我不想最终编写已经存在的东西并“重新发明轮子”，因为我确信我的轮子不会像原来的那样好。

aggregate amazon hadoop mapreduce reduce

2009-12-22T15:09:41.440

0 投票

11 回答

36463 浏览

storage - 可扩展的图像存储

我目前正在为基于 Web 的应用程序设计一个架构，该架构还应该提供某种图像存储。用户将能够上传照片作为该服务的主要功能之一。查看这些图像也是主要用途之一（通过网络）。

但是，我不确定如何在我的应用程序中实现这种可扩展的图像存储组件。我已经考虑过不同的解决方案，但由于缺少经验，我期待听到您的建议。除了图像，还必须保存元数据。以下是我的初步想法：

使用像 HDFS 这样的（分布式）文件系统，并准备专用的网络服务器作为“文件系统客户端”，以保存上传的图像和服务请求。图像元数据保存在一个附加数据库中，包括每个图像的文件路径信息。
在 HDFS 之上使用 HBase 等面向 BigTable 的系统，并将图像和元数据一起保存。同样，网络服务器桥接图像上传和请求。
使用像 CouchDB 这样完全无模式的数据库来存储图像和元数据。此外，使用基于 HTTP 的 RESTful API 使用数据库本身进行上传和交付。（附加问题：CouchDB 确实通过 Base64 保存 blob。但是它能否以图像/jpeg 等形式返回数据）？

storage couchdb hadoop hbase hdfs

2009-12-25T13:42:28.650

0 投票

2 回答

1205 浏览

servlets - Hadoop 之上的 Servlet 容器？

我正处于一个大项目的架构阶段，我决定使用 hbase 作为我的数据库，并将使用 map/reduce 作业进行处理，因此我的架构完全在 hadoop 下工作。

问题是我还需要实现一些 REST、SOAP API 的一些网页，所以我在想是否有任何 servlet 容器运行在 hadoop 之上，这样我的系统就可以保持冗余和分布式，而不必担心辅助集群机制（因为我已经为hadoop设置了一个）。

那么是否有任何 servlet 容器在 hadoop 之上运行，例如 hbase（一个数据库）在 hadoop 之上运行？

servlets hadoop

2009-12-28T17:16:46.057

0 投票

3 回答

1434 浏览

streaming - AWS 上 MapReduce 的 Hadoop 或 Hadoop 流

我即将开始一个将在 AWS 上运行的 mapreduce 项目，我可以选择使用 Java 或 C++。

我知道用 Java 编写项目会为我提供更多功能，但是 C++ 也可以通过 Hadoop Streaming 实现它。

请注意，我对这两种语言都没有多少背景。一个类似的项目已经用 C++ 完成，代码可供我使用。

所以我的问题是：这个额外的功能是通过 AWS 提供的，还是只有在你对云有更多控制权的情况下才相关？为了做出决定，我还有什么需要记住的，比如 hadoop 插件的可用性，可以更好地使用一种语言或另一种语言？

提前致谢

streaming amazon-web-services hadoop mapreduce

2009-12-28T21:25:44.503

0 投票

3 回答

1290 浏览

hadoop - 使用 Hadoop 将 word 文档转换为 pdf

假设我想将 1000 个 word 文件转换为 pdf，那么使用 Hadoop 来解决这个问题是否有意义？与简单地使用多个 EC2 实例和作业队列相比，使用 Hadoop 有什么优势吗？

此外，如果有 1 个文件和 10 个空闲节点，那么 hadoop 会拆分文件并将其发送到 10 个节点，还是将文件仅发送到 1 个节点而 9 个节点空闲？

hadoop

user206629

2009-12-29T11:58:31.420

问题标签 [hadoop]

Reference