问题标签 [streamsets]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
468 浏览

data-collection - 一个作业的多个数据收集器,无需在流集中复制记录

我有一个由多个文件组成的目录,并且在多个数据收集器之间共享。我有一份工作来处理这些文件并将其放入目的地。因为记录很大,我想在多个数据收集器中运行这项工作。但是当我尝试时,我在目的地得到了重复的条目。有没有办法在不复制记录的情况下实现它。谢谢

0 投票
1 回答
372 浏览

streamsets - StreamSets 中的 Oracle 11g CDC 出错

我构建的管道是从 ORACLE 读取并写入 Directory 以评估 Streamsets CDC 支持的灵活性。

0 投票
1 回答
209 浏览

streamsets - 无法将外部 js 脚本添加到流集中的 javascript Evaluator

我在流集中的 javascript 评估器中使用外部 javascript。但是当我尝试加载外部代码时,我得到了以下错误。我应该如何解决这个问题。谢谢

错误 SafeScheduledExecutorService - 来自 com.streamsets.pipeline.lib.executor.SafeScheduledExecutorService$SafeCallable@69717812 的未捕获可抛出:com.streamsets.datacollector.util.PipelineException:PREVIEW_0003 - 预览时遇到错误:java.security.AccessControlException:访问被拒绝(“java .io.FilePermission" "/opt/streamsets-datacollector-user-libs/test.js" "read") com.streamsets.datacollector.util.PipelineException: PREVIEW_0003 - 预览时遇到错误:java.security.AccessControlException: 拒绝访问(“java.io.FilePermission”“/opt/streamsets-datacollector-user-libs/test.js”“读取”)

0 投票
2 回答
599 浏览

hadoop - Can StreamSets be used to fetch data onto a local system?

Our team is exploring options for HDFS to local data fetch. We were suggested about StreamSets and no one in the team has an idea about it. Could anyone help me to understand if this will fit our requirement that is to fetch the data from HDFS onto our local system?

Just an additional question.
I have setup StreamSets locally. For example on local ip: xxx.xx.x.xx:18630 and it works fine on one machine. But when I try to access this URL from some other machine on the network, it doesn't work. While my other application like Shiny-server etc works fine with the same mechanism.

0 投票
1 回答
123 浏览

streamsets - StreamSets 在项目 streamets-datacollector-dist 上构建失败:找不到工件

我正在尝试按照公共 Streamsets git 存储库( SDC Public github 链接)中的步骤使用源代码构建 StreamSets Data Collector 。

下图是错误截图。 当我尝试使用源代码构建 StreamSets 时收到的错误消息

我已经完成了在构建写在 github build.md 页面上的 SDC 之前应该做的全部任务,并且以下软件已成功安装且版本正确。

JDK:v1.8 Git:v2.18.0 Maven:v3.5.4 Docker:v18.03.1.ce 节点:v0.10.32 grunt-cli:已安装(v1.4.0) bower:v1.8.2 go:v1.9.2(使用gvm ) 等级:v4.2

我收到了大约两个多星期的相同错误消息,这让我非常抓狂。我需要你的帮助。谢谢你。

0 投票
1 回答
376 浏览

streamsets - Streamsets Pipeline 将文件摄取到 HDFS 引发误导性“找不到文件”异常

我们设置了 Streamsets 作业。尽管它成功运行会引发以下错误:

“未知的 com.streamsets.pipeline.api.StageException:SPOOLDIR_35 - 假脱机目录运行器失败。原因 java.nio.file.NoSuchFileException:”

错误是“找不到文件”,但实际上文件已成功处理,但仍会引发错误。这会在中间发生,而不是针对所有正在处理的文件。

以下是有关该工作的一些背景:

  • 管道从 linux 边缘节点读取文件并将它们摄取到 HDFS
  • 错误发生在“读取”阶段
  • 我们已经运行相同的管道将近 2 年了,直到上个月左右才发现这个问题。最近我们的流程没有任何变化。间歇性错误似乎与最新的 StreamSets 升级相吻合。
  • 我们通过这个管道每 2 小时处理大约 7 个文件,因此每天大约 84 个文件,间歇性错误似乎每天发生在 1-3 个文件上。所有文件仍然在 HDFS 中处理。

知道为什么会这样吗?

0 投票
1 回答
404 浏览

python - 无法从 StreamSets Jython Evaluator 写入数据

我正在尝试从目录中读取数据并尝试解析该数据,最后尝试将其写入另一个目录。

为此,我正在使用 Jython Evaluator。这是我的代码:

我能够将数据写入输出,但我的要求是写入从输入记录解析的标题和链接。

这是我的代码片段:

在此处输入图像描述

请有任何建议。

提前致谢。

0 投票
1 回答
275 浏览

email - 使用 Streamsets 发送电子邮件时出错

我正在尝试使用 StreamSets 发送电子邮件。

为此,我使用目录作为源(文本文件中的收据列表)和

用于处理的 Jython 评估器和用于目的地的垃圾(仅用于测试)。

当我运行管道时,运行没有任何错误。但是像这样将错误邮件发送到我的 sender_email:

这是我的示例代码:

这是我的错误: 在此处输入图像描述

0 投票
1 回答
397 浏览

streamsets - 无法在 mac 中安装 Streamsets

我正在尝试在我的 Mac 中安装 Streamsets。当我尝试通过此命令启动流集时:出现streamsets-datacollector-3.4.3/bin/streamsets dc以下异常:

0 投票
0 回答
52 浏览

file - 通过流集从不断更新的文件中读取数据

我想通过流集从活动文件中读取数据。当我在更新现有文件后尝试使用文件尾源运行管道时,它显示以下错误:

消息:管道状态:RUNNING_ERROR:java.lang.IllegalStateException:LiveFileReader for 'LiveFile[path=/home/spandanad/something/test1.log.2018-10-03, iNode=(dev=fd02,ino=5433), headHash =Hm0Vsfo8J8zr8Co+p9sAFA==]' 未开启