问题标签 [multipleoutputs]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop - java.lang.ClassCastException:org.apache.hadoop.io.serializer.WritableSerialization 不能转换为 org.apache.hadoop.io.serializer.Serialization
我正在使用 MRUnit 测试 MultipleOutputs。测试用例因以下消息而失败。
根据我看到的示例,我正在使用以下注释。
作为参考,我添加了用于测试的代码。
错误的堆栈跟踪如下:
为 MRUnit 添加了 POM 依赖项:
Hadoop 版本:2.4.1 环境:Windows 7 - 64 位
如果有人遇到过这个问题,请帮忙。
java - spark java api 有像 hadoop MultipleOutputs / FSDataOutputStream 这样的类吗?
我试图在 reduce 部分输出一些特定的记录,这取决于键值记录的值。在 hadoop mapreduce 中可以使用类似的代码
我想在spark集群上运行这个过程,spark java api可以像上面的代码那样做吗?
hadoop - Hadoop MapReduce MultipleOutput 删除 _temporary 目录
我正在 oozie 工作流程中使用 mapreduce 操作执行 mapreduce 作业。我在 Reducer 阶段使用多个输出,因为我希望输出位于不同的目录中。我能够按预期获得不同目录中的多个输出。但是,我目前面临的唯一问题是输出包含在 _temporary 目录和 _taskid 目录中。例如:输出在:/user/sajain/output/ _temp/_attempt_201702011607_103192_r_000003_1 /file1.xml
我的预期输出是:/user/sajain/output/file1.xml
作业正在成功完成。根据官方 oozie 文档,在成功作业结束时,它应该删除这个临时目录。谁能帮忙
hadoop - 映射器函数Hadoop版本问题中的MultipleOutputs
我正在实施 Hadoop mapreduce。我对 map 的输入是一个表格,如下所示:
客户ID、IP、属性、日期
客户 1、IP1、属性 1、日期 1
客户2,IP2,属性1,日期2
映射器的输出应该是多个文件
文件 1:IP-m-00000
核心价值
客户1_IP1,日期1
客户2_IP2,日期2
文件 2:Attr-m-00000
核心价值
客户1_attr1,日期1
客户 2_attr1 ,日期 2
我已经安装了 hadoop 2.2.0,我正在使用以下代码
我的 txtKey 是 customerid_$Attribute,txtValue 是日期。
我在另一台个人机器上安装了 2.8.0,MultipleOutputs 对象具有非常容易实现的写入功能。hadoop-2.8.0 中的 MultipleOutputs.write() 在 hadoop-2.2.0 中没有实现。
关于如何在我们没有 MultipleOutputs.write() 功能的 hadoop-2.2.0 中编写 multipleOutput 文件的任何想法?
如果这个问题需要任何修改,请您评论而不是关闭问题!
谢谢,大师
model - Keras 多个输出:不收敛
我正在构建一个多输出 keras 模型
我的custom_loss
功能:`
但我的网络没有收敛
我只想训练主要输出。辅助输出将用于测试。
model - 当有多个输出时,如何仅在一个输出上训练网络?
我在 Keras 中使用多输出模型
我的custom_loss
功能是
我只想在 output 上训练网络y2
。
当使用多个输出时,损失函数中的y_pred
和参数的形状/结构是什么?y_true
我可以像上面那样访问它们吗?是y_pred[0]
还是y_pred[:,0]
?
c# - C# Linq to SQL 在存储过程中传递列表
我希望在我的存储过程中传递一个字符串列表,我试图设置以下教程的指示,但我被困在最后一步:https ://larrymcnutt.wordpress.com/2014/11/05 /传递-a-list-int-from-c-to-at-sql-stored-procedure/
我在我的数据库中创建了一个这样的用户定义类型:
在我的课堂上,我使用正确的类型和列表调整我的代码
但是我遇到的问题是我的存储过程返回多个值,所以我使用这样的方法:
在这种情况下,我还没有找到指示如何将我的列表作为参数传递的资源。
返回的异常:
表类型参数“@p1”必须具有有效的类型名称。
我还尝试通过像这样的简单字符串列表来更改变量的类型
但我有同样的结果
谢谢
编辑:这是我用于存储过程的代码:
我设法像这样执行我的存储过程:
它返回我的 3 个表中的数据,对应于我的 c# 代码中定义的结果“Value”、“Structure”、“Error”
scala - 如何在 Spark SCALA 中重命名 AWS 中的 Spark 数据帧输出文件
我将我的 spark 数据帧输出保存为带有分区的 scala 中的 csv 文件。这就是我在Zeppelin中的做法。
现在文件保存在预期的分区文件夹结构中。
现在我的要求是重命名所有零件文件并将其保存在一个目录中。文件名将作为文件夹结构的名称。
例如我有一个文件保存在folder/DataPartition=Japan/PartitionYear=1971/part-00001-87a61115-92c9-4926-a803-b46315e55a08.c000.csv.gz
现在我希望我的文件名是
我的工作完成后,我在 java map-reduce 中完成了这项工作,然后我正在读取 HDFS 文件系统,然后将其移动到不同的位置作为重命名的文件名。
但是如何在 spark SCALA 中的 AWS S3 文件系统中执行此操作。
据我研究,没有直接的方法可以重命名 spark 数据框输出文件名。
但是有一些实现可以使用MultipleOutputs
作为saveAsHadoopFile在作业本身中完成,但如何做到这一点?
我在 scala 中寻找一些示例代码
就像完成工作后,我们需要从 s3 读取文件,将其扩孔并将其移动到其他位置。
java - 删除 Reducer 输出上的 -r-00000
我正在使用这样的 MultipleOutputs:
在减速机上
我得到的输出文件是 stopwords.csv-r-00000 我需要摆脱 -r-00000。我怎样才能做到这一点?
python - keras 中的多个输出 - 模型需要多个目标数组但收到 1
我有一个问题是要弄清楚图像中是否存在特定的线条。作为输入 - 我有一个 96*54 的二进制图像,作为输出我有 18 个数字,1 或 0。
当我尝试创建多个输出时,拟合后出现以下错误:模型需要 18 个目标数组,但只收到一个数组。我尝试以多种方式尝试重塑输出张量,甚至使用 python 数组来保存 np 张量,但没有成功。
这是代码: