“data-ingestion”的相关标签问题

0 投票

2 回答

355 浏览

hadoop - 无法将大于 100 MB 的文件加载到 HDFS

我的集群面临一个非常奇怪的问题。

每当我尝试将任何大于 100 MB（104857600 字节）的文件加载到 HDFS 中时，它都会失败并出现以下错误：

所有数据节点都不好...正在中止。

这真的很奇怪，因为 100 MB 已成为文件大小的阈值。

即使我尝试将文件大小增加 1 个单字节（104857601 字节），并尝试将其加载到 HDFS 中，它也会因长堆栈跟踪而失败。主要是说“所有数据节点都不好......正在中止”

有没有人之前遇到过类似的情况？

是否有可能是一些错误的配置更改导致了这种行为？如果是，任何限制我可以更改的可以摄取的数据大小的配置？

谢谢

2016-09-29T07:51:01.153

0 投票

0 回答

796 浏览

indexing - Druid / Tranquility (server) / Ingestion / Indexing 尚未完成

我使用 Druid 0.9.1.1 和 Tranquility 0.8.0，并按照此处的快速入门步骤进行操作：http: //druid.io/docs/0.9.1.1/tutorials/quickstart.html

以下命令成功：

它返回此响应：

...通过德鲁伊控制台，我可以看到创建了索引任务：

问题是：数据源（命名指标，根据我在架构中的规范）还没有出现，现在已经 20 分钟了。索引仍处于 RUNNING 状态。

为什么需要这么长时间？所以我检查了这个：http ://druid.io/docs/latest/ingestion/stream-push.html 。快进到“任务创建”部分，它说：

segmentGranularity 是每个任务产生的段所覆盖的时间段。例如，“小时”的segmentGranularity 将产生创建每个覆盖一小时的段的任务。

这可能是我没有看到我的数据源的原因（我的架构规范中的 segmentGranularity 的值是 1 小时）？

如果我错了，请纠正我。

indexing real-time druid data-ingestion

2016-10-11T18:05:52.550

0 投票

1 回答

107 浏览

java - Gobblin - 如何从 Facebook 获取帖子

我一直在研究 Gobblin，目前我在使用 Gobblin 从 Facebook 获取帖子时遇到了困难。我在互联网上找不到任何连接示例，或者我可能搜索错误。

我正在考虑将 restfb 集成到 Gobblin，但是在 Gobblin 中，有一个带有连接器、源和提取器的 RestAPI 类，我正在努力寻找一种将这些组合在一起的方法。您能否为我提供有关如何实施此操作的简单指南或指出正确的说明？非常感谢您提前。

java facebook-graph-api restfb data-ingestion gobblin

2016-11-15T04:08:32.103

0 投票

1 回答

259 浏览

database - 我应该如何评估 CrateDB 的插入基准？

我试图理解和解释 CrateDB 提供的基准。( https://staging.crate.io/benchmark/ )

我对在一秒钟内可以插入多少个元素感兴趣。我知道这可能因元组的大小而异。我会定义我有与 CrateDB 在他们的例子中使用的相同的 ements-sizes。

它们为批量插入提供了一个示例，插入 10.000 个（整数/字符串对）的批量平均需要 50 毫秒。

现在，我可以计算出可以在 1 秒（1000 毫秒）内插入 20 个 10.000 对的批量吗？

1000ms/50ms = 20 -> 20*10000 = 200000 -> 200000 个整数/字符串对每秒
如果我有 7 个整数和 2 个小数（7,4），我能说结果会有什么不同吗？

database benchmarking evaluate crate data-ingestion

2016-12-09T13:04:34.857

0 投票

2 回答

5780 浏览

hdfs - 使用 NiFi 将数据加载到 Hive 的最佳方法是什么？

我已经开始使用 NiFi。我正在研究一个将数据加载到 Hive 的用例。我得到一个 CSV 文件，然后我使用 SplitText 将传入的流文件拆分为多个流文件（逐个记录拆分）。然后我使用 ConvertToAvro 将拆分的 CSV 文件转换为 AVRO 文件。之后，我将 AVRO 文件放入 HDFS 的目录中，并使用 ReplaceText + PutHiveQL 处理器触发“加载数据”命令。

我按记录拆分文件记录，因为要获取分区值（因为 LOAD DATA 不支持动态分区）。流程如下所示：

GetFile (CSV) --- SplitText（分割行数：1 和标题行数：1） --- ExtractText（使用 RegEx 获取分区字段的值并分配给属性） --- ConvertToAvro（指定架构）- - PutHDFS（写入 HDFS 位置）--- ReplaceText（加载带有分区信息的数据 cmd）--- PutHiveQL

问题是，由于我一次将 CSV 文件拆分为每条记录，它会生成太多的 avro 文件。例如，如果 CSV 文件有 100 条记录，它会创建 100 个 AVRO 文件。由于我想获取分区值，因此我必须一次将它们拆分为一条记录。我想知道有什么办法，我们可以在不逐记录拆分的情况下实现这个目标。我的意思是像批处理它。我对此很陌生，所以我还无法破解它。帮我解决这个问题。

PS：如果有任何替代方法可以实现此用例，请建议我。

hdfs hiveql apache-nifi data-ingestion

2017-02-07T07:28:55.853

0 投票

1 回答

247 浏览

error-handling - 使用 Watson Discovery Service 摄取时出错

尝试使用 Watson Discovery Service 摄取 7MB 的 json 文件。使用 WDS 工具界面摄取时，界面指示摄取成功，但文档随后看起来失败。使用API时返回的错误是：“由于服务器出现问题，无法处理您的请求”。该错误并不能真正帮助解决问题。有什么想法吗？我们如何解决这些问题？

谢谢

error-handling data-ingestion watson-discovery

2017-02-14T23:37:11.337

0 投票

0 回答

46 浏览

csv - Solr 问题中的 CSV 数据摄取

我是 Solr 的新手，正在尝试将 CSV 文件提取到演示集合中。下面是我要执行的命令。

Bellow 是我得到的响应，但没有摄取任何数据。感谢你的帮助。谢谢。

csv hadoop solr data-ingestion

2017-03-12T11:47:02.970

0 投票

2 回答

761 浏览

apache-kafka - Druid with Kafka Ingestion：过滤数据

在从 Kafka 到 Druid 的摄取过程中，是否可以按维度值过滤数据？

例如考虑维度：version，可能有值：，，v1我只想加载。v2v3v2

我意识到可以使用 Spark/Flink/Kafka Streams 来完成，但也许有一个开箱即用的解决方案

apache-kafka druid data-ingestion

2017-03-20T12:38:15.653

0 投票

1 回答

545 浏览

hadoop - Hadoop Ingestion automation techniques

My context is ;

10 csv files are uploaded to my server during the night .

My process is :

Ingestion :
- Put the files on HDFS
- Create ORC Hive Table and put data on them .
Processing :
- Spark processing : transformation , cleaning , join ....
- a lot of chained steps(Spark Job)

I am searching best practices to automate the first part and trigger the second part .

Cron , sh , dfs put .
Oozie ?
Apache Nifi ?
Flume ?
Telend :(

I also see https://kylo.io/ , It's perfect but i think still young to put it in production.

Thanks in advance .

hadoop apache-nifi data-ingestion

2017-04-12T17:54:23.000

0 投票

0 回答

62 浏览

hadoop - 记录从 teradata 摄取到 Hadoop 的限制

我正在使用 jdbc 连接器将 5 个表从 teradata 摄取到 Hadoop。我已经为此编写了配置文件。

5 个表中有 4 个能够完美摄取，并且记录数也匹配。一张桌子根本没有被摄取。该表的计数为 5600 万（此集合中最大），摄取运行到大约 3500 万条记录并突然停止，没有错误消息。即使对于 35M 记录，该表也没有在 Hadoop 中创建。这是我通常的摄取方法，这不会出错。

有人可以建议从 Teradata 到 Hadoop 的记录数量是否有限制？

hadoop jdbc teradata data-ingestion

2017-04-19T03:45:19.197

问题标签 [data-ingestion]

Reference