我正在 Cloudera Distribution 上使用 StreamSets,试图从该网站http://files.data.gouv.fr/sirene/摄取一些数据
我在选择 HTTP 客户端和 Hadoop FS 目标的参数时遇到了一些问题。
https://image.noelshack.com/fichiers/2017/44/2/1509457504-streamsets-f.jpg
我收到此错误:HTTP_00 - 无法解析记录:java.io.IOException: org.apache.commons.compress.archivers.ArchiveException: No Archiver found for the stream signature
我会告诉你我的配置。
HTTP客户端:
一般的
名称:HTTP 客户端 INSEE
描述:客户端 HTTP SIRENE
记录错误:发送到错误
HTTP
资源网址: http: //files.data.gouv.fr/sirene/
标题:sirene_:sirene_
模式:流媒体
按状态操作
HTTP 统计代码:500 | 状态操作:使用指数退避重试 |
基本退避间隔(毫秒):1000 | 最大重试次数:10
HTTP 方法:GET
身体时区 : UTC (UTC)
请求传输编码:缓冲
HTTP 压缩:无
连接超时:0
读取超时:0
身份验证类型:无
使用 OAuth 2
使用代理服务器
最大批量(记录):1000
批处理等待时间(毫秒):2000
分页
分页模式:无
TLS
使用TLS
超时处理
超时操作:立即重试
最大重试次数:10
数据格式
日期格式:分隔
压缩格式:存档
压缩目录中的文件名模式:*.csv
分隔符格式类型:自定义
标题行:带标题行
最大记录长度(字符):1024
允许额外的列
分隔符:分号
转义字符:其他\
引用字符:其他“
根字段类型:列表映射
要跳过的行:0
解析 NULL
字符集:UTF-8
忽略控制字符
Hadoop FS 目标:
一般的
名称:Hadoop FS 1
描述:写入HDFS
舞台图书馆:CDH 5.7.6
制作活动
必填字段
前提条件
记录错误:发送到错误
输出文件
文件类型:整个文件
文件前缀
标题中的目录
目录模板:/user/pap/StreamSets/sirene/
数据时区:UTC (UTC)
时间基准:${time:now()}
使用滚动属性
验证 HDFS 权限:开
跳过文件恢复:开
迟到的记录
延迟记录时间限制(秒):${1 * HOURS}
后期记录处理:发送到错误
数据格式
数据格式:整个文件
文件名表达式:${record:value('/fileInfo/filename')}
权限表达式:777
文件存在:覆盖
在事件中包含校验和
...那我做错了什么?:(