问题标签 [data-ingestion]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
355 浏览

hadoop - 无法将大于 100 MB 的文件加载到 HDFS

我的集群面临一个非常奇怪的问题。

每当我尝试将任何大于 100 MB(104857600 字节)的文件加载到 HDFS 中时,它都会失败并出现以下错误:

所有数据节点都不好...正在中止。

这真的很奇怪,因为 100 MB 已成为文件大小的阈值。

即使我尝试将文件大小增加 1 个单字节(104857601 字节),并尝试将其加载到 HDFS 中,它也会因长堆栈跟踪而失败。主要是说“所有数据节点都不好......正在中止”

有没有人之前遇到过类似的情况?

是否有可能是一些错误的配置更改导致了这种行为?如果是,任何限制我可以更改的可以摄取的数据大小的配置?

谢谢

0 投票
0 回答
796 浏览

indexing - Druid / Tranquility (server) / Ingestion / Indexing 尚未完成

我使用 Druid 0.9.1.1 和 Tranquility 0.8.0,并按照此处的快速入门步骤进行操作:http: //druid.io/docs/0.9.1.1/tutorials/quickstart.html

以下命令成功:

它返回此响应:

...通过德鲁伊控制台,我可以看到创建了索引任务:

德鲁伊控制台页面

问题是:数据源(命名指标,根据我在架构中的规范)还没有出现,现在已经 20 分钟了。索引仍处于 RUNNING 状态。

为什么需要这么长时间?所以我检查了这个:http ://druid.io/docs/latest/ingestion/stream-push.html 。快进到“任务创建”部分,它说:

segmentGranularity 是每个任务产生的段所覆盖的时间段。例如,“小时”的segmentGranularity 将产生创建每个覆盖一小时的段的任务。

这可能是我没有看到我的数据源的原因(我的架构规范中的 segmentGranularity 的值是 1 小时)?

架构规范

如果我错了,请纠正我。

0 投票
1 回答
107 浏览

java - Gobblin - 如何从 Facebook 获取帖子

我一直在研究 Gobblin,目前我在使用 Gobblin 从 Facebook 获取帖子时遇到了困难。我在互联网上找不到任何连接示例,或者我可能搜索错误。

我正在考虑将 restfb 集成到 Gobblin,但是在 Gobblin 中,有一个带有连接器、源和提取器的 RestAPI 类,我正在努力寻找一种将这些组合在一起的方法。您能否为我提供有关如何实施此操作的简单指南或指出正确的说明?非常感谢您提前。

0 投票
1 回答
259 浏览

database - 我应该如何评估 CrateDB 的插入基准?

我试图理解和解释 CrateDB 提供的基准。( https://staging.crate.io/benchmark/ )

我对在一秒钟内可以插入多少个元素感兴趣。我知道这可能因元组的大小而异。我会定义我有与 CrateDB 在他们的例子中使用的相同的 ements-sizes。

它们为批量插入提供了一个示例,插入 10.000 个(整数/字符串对)的批量平均需要 50 毫秒。

  1. 现在,我可以计算出可以在 1 秒(1000 毫秒)内插入 20 个 10.000 对的批量吗?

    1000ms/50ms = 20 -> 20*10000 = 200000 -> 200000 个整数/字符串对每秒

  2. 如果我有 7 个整数和 2 个小数(7,4),我能说结果会有什么不同吗?

0 投票
2 回答
5780 浏览

hdfs - 使用 NiFi 将数据加载到 Hive 的最佳方法是什么?

我已经开始使用 NiFi。我正在研究一个将数据加载到 Hive 的用例。我得到一个 CSV 文件,然后我使用 SplitText 将传入的流文件拆分为多个流文件(逐个记录拆分)。然后我使用 ConvertToAvro 将拆分的 CSV 文件转换为 AVRO 文件。之后,我将 AVRO 文件放入 HDFS 的目录中,并使用 ReplaceText + PutHiveQL 处理器触发“加载数据”命令。

我按记录拆分文件记录,因为要获取分区值(因为 LOAD DATA 不支持动态分区)。流程如下所示:

GetFile (CSV) --- SplitText(分割行数:1 和标题行数:1) --- ExtractText(使用 RegEx 获取分区字段的值并分配给属性) --- ConvertToAvro(指定架构)- - PutHDFS(写入 HDFS 位置)--- ReplaceText(加载带有分区信息的数据 cmd)--- PutHiveQL

问题是,由于我一次将 CSV 文件拆分为每条记录,它会生成太多的 avro 文件。例如,如果 CSV 文件有 100 条记录,它会创建 100 个 AVRO 文件。由于我想获取分区值,因此我必须一次将它们拆分为一条记录。我想知道有什么办法,我们可以在不逐记录拆分的情况下实现这个目标。我的意思是像批处理它。我对此很陌生,所以我还无法破解它。帮我解决这个问题。

PS:如果有任何替代方法可以实现此用例,请建议我。

0 投票
1 回答
247 浏览

error-handling - 使用 Watson Discovery Service 摄取时出错

尝试使用 Watson Discovery Service 摄取 7MB 的 json 文件。使用 WDS 工具界面摄取时,界面指示摄取成功,但文档随后看起来失败。使用API​​时返回的错误是:“由于服务器出现问题,无法处理您的请求”。该错误并不能真正帮助解决问题。有什么想法吗?我们如何解决这些问题?

谢谢

0 投票
0 回答
46 浏览

csv - Solr 问题中的 CSV 数据摄取

我是 Solr 的新手,正在尝试将 CSV 文件提取到演示集合中。下面是我要执行的命令。

Bellow 是我得到的响应,但没有摄取任何数据。感谢你的帮助。谢谢。

0 投票
2 回答
761 浏览

apache-kafka - Druid with Kafka Ingestion:过滤数据

在从 Kafka 到 Druid 的摄取过程中,是否可以按维度值过滤数据?

例如考虑维度:version,可能有值:,,v1我只想加载。v2v3v2

我意识到可以使用 Spark/Flink/Kafka Streams 来完成,但也许有一个开箱即用的解决方案

0 投票
1 回答
545 浏览

hadoop - Hadoop Ingestion automation techniques

My context is ;

10 csv files are uploaded to my server during the night .

My process is :

  • Ingestion :

    • Put the files on HDFS
    • Create ORC Hive Table and put data on them .
  • Processing :

    • Spark processing : transformation , cleaning , join ....
    • a lot of chained steps(Spark Job)

I am searching best practices to automate the first part and trigger the second part .

  • Cron , sh , dfs put .
  • Oozie ?
  • Apache Nifi ?
  • Flume ?
  • Telend :(

I also see https://kylo.io/ , It's perfect but i think still young to put it in production.

Thanks in advance .

0 投票
0 回答
62 浏览

hadoop - 记录从 teradata 摄取到 Hadoop 的限制

我正在使用 jdbc 连接器将 5 个表从 teradata 摄取到 Hadoop。我已经为此编写了配置文件。

5 个表中有 4 个能够完美摄取,并且记录数也匹配。一张桌子根本没有被摄取。该表的计数为 5600 万(此集合中最大),摄取运行到大约 3500 万条记录并突然停止,没有错误消息。即使对于 35M 记录,该表也没有在 Hadoop 中创建。这是我通常的摄取方法,这不会出错。

有人可以建议从 Teradata 到 Hadoop 的记录数量是否有限制?