问题标签 [multipleoutputs]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
429 浏览

hadoop - java.lang.ClassCastException:org.apache.hadoop.io.serializer.WritableSerialization 不能转换为 org.apache.hadoop.io.serializer.Serialization

我正在使用 MRUnit 测试 MultipleOutputs。测试用例因以下消息而失败。

根据我看到的示例,我正在使用以下注释。

作为参考,我添加了用于测试的代码。

错误的堆栈跟踪如下:

为 MRUnit 添加了 POM 依赖项:

Hadoop 版本:2.4.1 环境:Windows 7 - 64 位

如果有人遇到过这个问题,请帮忙。

0 投票
1 回答
119 浏览

java - spark java api 有像 hadoop MultipleOutputs / FSDataOutputStream 这样的类吗?

我试图在 reduce 部分输出一些特定的记录,这取决于键值记录的值。在 hadoop mapreduce 中可以使用类似的代码

我想在spark集群上运行这个过程,spark java api可以像上面的代码那样做吗?

0 投票
0 回答
226 浏览

hadoop - Hadoop MapReduce MultipleOutput 删除 _temporary 目录

我正在 oozie 工作流程中使用 mapreduce 操作执行 mapreduce 作业。我在 Reducer 阶段使用多个输出,因为我希望输出位于不同的目录中。我能够按预期获得不同目录中的多个输出。但是,我目前面临的唯一问题是输出包含在 _temporary 目录和 _taskid 目录中。例如:输出在:/user/sajain/output/ _temp/_attempt_201702011607_103192_r_000003_1 /file1.xml

我的预期输出是:/user/sajain/output/file1.xml

作业正在成功完成。根据官方 oozie 文档,在成功作业结束时,它应该删除这个临时目录。谁能帮忙

0 投票
1 回答
92 浏览

hadoop - 映射器函数Hadoop版本问题中的MultipleOutputs

我正在实施 Hadoop mapreduce。我对 map 的输入是一个表格,如下所示:

客户ID、IP、属性、日期

客户 1、IP1、属性 1、日期 1

客户2,IP2,属性1,日期2

映射器的输出应该是多个文件

文件 1:IP-m-00000

核心价值

客户1_IP1,日期1

客户2_IP2,日期2

文件 2:Attr-m-00000

核心价值

客户1_attr1,日期1

客户 2_attr1 ,日期 2

我已经安装了 hadoop 2.2.0,我正在使用以下代码

我的 txtKey 是 customerid_$Attribute,txtValue 是日期。

我在另一台个人机器上安装了 2.8.0,MultipleOutputs 对象具有非常容易实现的写入功能。hadoop-2.8.0 中的 MultipleOutputs.write() 在 hadoop-2.2.0 中没有实现。

关于如何在我们没有 MultipleOutputs.write() 功能的 hadoop-2.2.0 中编写 multipleOutput 文件的任何想法?

如果这个问题需要任何修改,请您评论而不是关闭问题!

谢谢,大师

0 投票
1 回答
467 浏览

model - Keras 多个输出:不收敛

我正在构建一个多输出 keras 模型

我的custom_loss功能:`

但我的网络没有收敛

我只想训练主要输出。辅助输出将用于测试。

0 投票
3 回答
23074 浏览

model - 当有多个输出时,如何仅在一个输出上训练网络?

我在 Keras 中使用多输出模型

我的custom_loss功能是

我只想在 output 上训练网络y2

当使用多个输出时,损失函数中的y_pred和参数的形状/结构是什么?y_true我可以像上面那样访问它们吗?是y_pred[0]还是y_pred[:,0]

0 投票
0 回答
1752 浏览

c# - C# Linq to SQL 在存储过程中传递列表

我希望在我的存储过程中传递一个字符串列表,我试图设置以下教程的指示,但我被困在最后一步:https ://larrymcnutt.wordpress.com/2014/11/05 /传递-a-list-int-from-c-to-at-sql-stored-procedure/

我在我的数据库中创建了一个这样的用户定义类型:

在我的课堂上,我使用正确的类型和列表调整我的代码

但是我遇到的问题是我的存储过程返回多个值,所以我使用这样的方法:

在这种情况下,我还没有找到指示如何将我的列表作为参数传递的资源。

返回的异常:

表类型参数“@p1”必须具有有效的类型名称。

我还尝试通过像这样的简单字符串列表来更改变量的类型

但我有同样的结果

谢谢

编辑:这是我用于存储过程的代码:

我设法像这样执行我的存储过程:

它返回我的 3 个表中的数据,对应于我的 c# 代码中定义的结果“Value”、“Structure”、“Error”

0 投票
2 回答
10643 浏览

scala - 如何在 Spark SCALA 中重命名 AWS 中的 Spark 数据帧输出文件

我将我的 spark 数据帧输出保存为带有分区的 scala 中的 csv 文件。这就是我在Zeppelin中的做法。

现在文件保存在预期的分区文件夹结构中。

现在我的要求是重命名所有零件文件并将其保存在一个目录中。文件名将作为文件夹结构的名称。

例如我有一个文件保存在folder/DataPartition=Japan/PartitionYear=1971/part-00001-87a61115-92c9-4926-a803-b46315e55a08.c000.csv.gz

现在我希望我的文件名是

我的工作完成后,我在 java map-reduce 中完成了这项工作,然后我正在读取 HDFS 文件系统,然后将其移动到不同的位置作为重命名的文件名。

但是如何在 spark SCALA 中的 AWS S3 文件系统中执行此操作。

据我研究,没有直接的方法可以重命名 spark 数据框输出文件名。

但是有一些实现可以使用MultipleOutputs作为saveAsHadoopFile在作业本身中完成,但如何做到这一点?

我在 scala 中寻找一些示例代码

就像完成工作后,我们需要从 s3 读取文件,将其扩孔并将其移动到其他位置。

0 投票
1 回答
88 浏览

java - 删除 Reducer 输出上的 -r-00000

我正在使用这样的 MultipleOutputs:

在减速机上

我得到的输出文件是 stopwords.csv-r-00000 我需要摆脱 -r-00000。我怎样才能做到这一点?

0 投票
0 回答
207 浏览

python - keras 中的多个输出 - 模型需要多个目标数组但收到 1

我有一个问题是要弄清楚图像中是否存在特定的线条。作为输入 - 我有一个 96*54 的二进制图像,作为输出我有 18 个数字,1 或 0。

当我尝试创建多个输出时,拟合后出现以下错误:模型需要 18 个目标数组,但只收到一个数组。我尝试以多种方式尝试重塑输出张量,甚至使用 python 数组来保存 np 张量,但没有成功。

这是代码: