问题标签 [google-hadoop]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
docker - What causes flume with GCS sink to throw a OutOfMemoryException
I am using flume to write to Google Cloud Storage. Flume listens on HTTP:9000
. It took me some time to make it work (add gcs libaries, use a credentials file...) but now it seems to communicate over the network.
I am sending very small HTTP request for my tests, and I have plenty of RAM available:
I encounter this memory exception on first request (then of course, it stops working):
(see complete stack trace as a gist for full details)
The strange part is that folders and files are created the way I want, but files are empty.
Is it something wrong with the way I configured flume + GCS or is it a bug in GCS.jar ?
Where should I check to gather more data ?
ps : I am running flume-ng inside docker.
My flume.conf
file:
related question in my flume/gcs journey: What is the minimal setup needed to write to HDFS/GS on Google Cloud Storage with flume?
bigdata - Spark - 随机播放“打开的文件太多”
使用 Spark 1.1
我有 2 个数据集。一个非常大,另一个被缩小(使用一些 1:100 过滤)到更小的比例。我需要将大型数据集减少到相同的规模,方法是仅将较小列表中的那些项目与较大列表中的相应对应项连接起来(这些列表包含具有相互连接字段的元素)。
我正在使用以下代码执行此操作:
- “if(joinKeys != null)”部分是相关部分
较小的列表是“joinKeys”,较大的列表是“keyedEvents”
/li>
事情是在运行这项工作时,我总是得到同样的错误:
通过在所有集群机器上执行以下操作,我已经增加了我的 ulimit:
但不能解决我的问题...
apache-spark - 本地运行 spark 作业时出现“Scheme 没有文件系统:gs”
我正在运行 Spark 作业(版本 1.2.0),输入是 Google Clous Storage 存储桶内的文件夹(即 gs://mybucket/folder)
在我的 Mac 机器上本地运行作业时,我收到以下错误:
5932 [main] 错误 com.doit.customer.dataconverter.Phase1 - 日期:2014_09_23 的作业失败并出现错误:方案没有文件系统:gs
我知道需要做两件事才能支持 gs 路径。一种是安装 GCS 连接器,另一种是在 Hadoop 安装的 core-site.xml 中进行以下设置:
我认为我的问题来自这样一个事实,即我不确定在这种本地模式下每个部分到底需要在哪里配置。在 Intellij 项目中,我使用的是 Maven,所以我导入了 spark 库,如下所示:
,和 Hadoop 1.2.1 如下:
问题是,我不确定为 Spark 配置 hadoop 位置的位置,以及配置 hadoop conf 的位置。因此,我可能会添加到错误的 Hadoop 安装中。另外,修改文件后有什么需要重启的吗?据我所知,我的机器上没有运行 Hadoop 服务。
apache-spark - 运行 Spark 作业的 NullPointerException
我在 Spark 上以独立模式运行作业,版本 1.2.0
我正在做的第一个操作是获取文件夹路径的 RDD,并生成文件名的 RDD,由驻留在每个文件夹中的文件组成:
FoldersToFiles 类的内部实现是:
在集群上运行作业时,出现以下错误:
所以错误并不直接在我的代码中。但是,查看 Spark 代码中的相关行:
(发生异常的第 140 行是第一个)
它可能与我上面提到的代码有关(这实际上是我工作中的第一个 mapPartitions,所以这很有意义),但是我不明白为什么。
google-compute-engine - Google Compute Engine 上的 Hadoop:如何添加外部软件
我需要在 Google Compute Engine 上建立一个 Hadoop 集群。虽然使用 Web 控制台Click&Deploy或通过命令行工具看起来很简单bdutil
,但我担心我的工作需要机器上存在额外的依赖项,例如Xvfb
、Firefox
和其他 - 尽管都可以通过apt-get
.
我不清楚最好的方法。我想到的选项是:
1) 我用附加的东西创建了一个自定义图像,并使用它来部署 hadoop 集群,无论是通过还是 click&deploy。那行得通吗?
2)使用标准图像和bdutil
自定义配置文件(编辑现有的)来执行所有sudo apt-get install xxx
. 这是一个可行的选择吗?
选项 1) 基本上是我过去在 AWS 上运行 Hadoop 所必须做的,老实说,维护起来很痛苦。我会对选项 2) 感到非常满意,但我不确定butil
是否允许这样做。
您是否看到任何其他设置 hadoop 集群的方法?感谢您的帮助!
cygwin - Google Cloud Hadoop Nodes not yet sshable 错误
我在 cygwin 上运行了以下命令,参考https://cloud.google.com/hadoop/setting-up-a-hadoop-cluster 。
部署后,我收到以下错误:
.
.
.
命令失败:在第 308 行等待 ${SUBPROC}。
失败命令的退出代码:1
文件中提供了详细的调试信息:/tmp/bdutil-20150120-103601-mDh/debuginfo.txt*
debuginfo.txt 中的日志如下:
你能帮我解决这个问题吗?十分感谢。
google-app-engine - datastore-connector-latest.jar 的来源在哪里?我可以将其添加为 Maven 依赖项吗?
我从https://cloud.google.com/hadoop/datastore-connector获得了连接器
但我正在尝试将datastore-connector
(以及bigquery-connector
)添加为 pom 中的依赖项......我不知道这是否可能. 我找不到正确的工件和 groupId。
是否有一些 Maven 存储库包含datastore-connector
?
此外,我正在寻找 的来源datastore-connector
,但我没有找到它。根据 中的注释CHANGES.txt
,它似乎来自:
https://github.com/GoogleCloudPlatform/bigdata-interop
源代码应该在包com.google.cloud.hadoop.io.datastore
( src/main/***/com/google/cloud/hadoop/io/datastore/
) 中,但它不存在。
事实上,来源bigquery-connector
似乎和它的pom一起在GitHub 上,但是来源是否可用?datastore-connector
hadoop - 使用 Hadoop BigQuery 连接器中的 ignoreUnknownValues
我正在通过 Hadoop 传输非结构化事件数据,并希望将其放在 BigQuery 中。我有一个包含大部分字段的架构,但有些字段我想忽略或不知道。
BigQuery 有一个名为ignoreUnknownValues的配置字段,但我不知道如何从 Hadoop 连接器打开它。这可能吗?
google-hadoop - JobTracker - 高内存和本机线程使用率
我们在 GCE 上运行 hadoop,使用 HDFS 默认文件系统,以及从/到 GCS 的数据输入/输出。
Hadoop 版本:1.2.1 连接器版本:com.google.cloud.bigdataoss:gcs-connector:1.3.0-hadoop1
观察到的行为:JT会累积等待状态的线程,导致OOM:
查看 JT 日志后,我发现了以下警告:
这似乎类似于这里的 hadoop bug 报告:https ://issues.apache.org/jira/browse/MAPREDUCE-5606
我通过禁用将作业日志保存到输出路径来尝试提出的解决方案,它以丢失日志为代价解决了问题:)
我还在 JT 上运行了 jstack,它显示了数百个 WAITING 或 TIMED_WAITING 线程,如下所示:
JT 似乎很难通过 GCS 连接器与 GCS 保持通信。
请指教,
谢谢
google-cloud-platform - 使用 bdutil 从现有 GCE hadoop/spark 集群中添加或删除节点
我开始在由谷歌云存储支持的谷歌计算引擎上运行 Spark 集群,该引擎使用 bdutil(在 GoogleCloudPlatform github 上)部署,我这样做如下:
我希望我可能想从 2 个节点的集群开始(默认情况下),然后想添加另一个工作节点来处理需要运行的大作业。如果可能的话,我想在不完全破坏和重新部署集群的情况下做到这一点。
我尝试使用具有不同数量节点的相同命令重新部署,或者运行“create”和“run_command_group install_connectors”,如下所示,但是对于其中的每一个,我都会收到有关已经存在的节点的错误,例如
或者
我也尝试过快照和克隆一个已经在运行的工作人员,但并不是所有的服务似乎都可以正确启动,而且我在那里有点超出我的深度。
关于如何/应该如何从现有集群中添加和/或删除节点的任何指导?