问题标签 [data-ingestion]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - Hadoop Ingestion期间Druid spatialDimensions加载数据错误
- 我有一个数据的 hadoop 摄取过程(就像https://druid.apache.org/docs/latest/ingestion/hadoop.html)
- 当前的 druid indexer 版本是0.14.2-incubating
- 数据是 GCS 上的 TSV 文件。
以前用过老版本的druid indexer,没有问题。升级到新版本后出现错误。
一些细节
这是我的规范中的一个解析部分:
本节会导致错误,如下所示:
我看到规范解析器试图在列之间定位维度,但它是空间维度!
这是一个非常痛苦的问题,影响了生产。有没有人知道如何解决这个错误?
google-cloud-platform - Sqoop 作业通过 Dataproc 失败
我已经通过 GCP Dataproc Cluster 提交了 Sqoop 作业并将其设置为--as-avrodatafile
配置参数,但它失败并出现以下错误:
没有指定--as-avrodatafile
参数它工作正常。
sqoop - 如何使用 Sqoop 和 Avro 作为数据文件增量加载数据?
出现以下错误:
运行命令时:
azure - 将数据从 SQL Server 复制到 Azure 数据工厂中的文件时的行拆分问题:
当我将数据从本地 SQL Server 拉到 ADL 时,只要 ADF 中的任何列具有多行文本(回车或换行),行就会分成多行。
我用过“|” 作为列分隔符,也使用“作为引号字符。由于这个问题,我的数据集完全搞砸了
引用的文本应该在一列中,而不是分成多行
druid - Apache Druid 中的中间持久化是什么?
Druid 如何在将实时摄取的数据移交给深度存储之前对其进行持久化?
在文档中,Druid 有关于 intermedatepersistperiod 和 maxpendingpersists 的配置。但它并没有说明什么是中间持久性,它是如何工作的。
从字面上看,我假设它会定期为内存中的实时数据保留数据。给定以小时/天为单位的段粒度,如果没有机制在段时间结束之前保留数据,则会产生可用性和可靠性问题。
apache-nifi - Apache NiFi 尾文件处理器不适用于大型日志文件
我正在使用 Apache NiFi 来获取我的应用程序实时日志(单个日志文件)并将其发布到 Apache Kafka。上述应用程序会生成大量日志(每天大约 50GB)。我需要近乎实时的摄取,所以我使用了 tailfile 处理器。这个问题是读取文件的线程卡住了,并且在几个小时内只是处于活动状态,什么都不做(不是什么都不做,但不生成流文件)。然后突然生成了一个很大的 xGB 流文件,所以不是很接近实时...
任何帮助将不胜感激。
此致
azure-blob-storage - 如何在数据工厂中解压缩包含 TAR 文件的压缩文件夹,其中包含压缩文件,每个文件都包含 CSV 文件?
我目前正在学习如何使用 Azure 数据工厂。我尝试进行我在 Python 脚本中所做的数据摄取和转换。现在我尝试在数据工厂上做同样的事情,因为它应该更容易。
我有一个压缩文件夹。它包含 Tar 文件。每个文件都包含压缩的 cvs 文件。通过将 csv 文件直接摄取到 blob 中当然很容易,但是如果我必须自动接收这样一个压缩文件夹,如果我什至无法弄清楚如何解压缩,我将如何将 csv 加载到数据库中, detar 并再次解压缩?在这种情况下,我使用来自真实案例研究的气候数据......如果您知道如何处理这个问题,我将不胜感激!提前致谢!!!
solr - Apache Nifi QuerySolr 处理器达到启动参数的上限
我在 Apache Nifi 中使用 QuerySolr 处理器来检索超过 10000 的文档列表(这是 QuerySolr 处理器 [1] 中定义的上限)。有没有办法绕过 QuerySolr 处理器中的这个限制,或者是否有办法检索比定义的上限更多的 Solr 文档?
apache-nifi - Apache Nifi 将文件移动到新的 hdfs 文件夹以获取小于当前日期的文件
我正在创建端到端流,通过使用消费 Kafka 来处理通过 tealium 事件流接收的 Json 文件,从而将数据消费到 HDFS 中。
目前,我已经使用
要求是将全天假脱机的 JSON 数据读取到单个文件中,引用属性 postdate(将时代转换为YYYYMMDDSS
之前的时间戳)并每天读取数据以合并到单个输出文件中,最后根据与 POST_DATE 字段相关的时间戳重命名文件区分日常文件。
当前日期输出文件夹应仅包含当前日期处理文件,并且所有较早日期的已完成输出文件应移至不同文件夹。
您能否帮助我如何在 MoveHDFS 上递归搜索 hdfs 文件夹并将不等于当前日期的已完成输出文件移动到不同的文件夹中。
apache-nifi - nifi Json数据使用routeonattribute过滤属性或属性值
我目前正在使用 Nifi 使用数据来读取 Tealium 事件流并加载到 HDFS 中。当源未发送属性数据时需要帮助过滤数据。
{"account":"newtv","twitter:description":"发现您最喜欢的 NewTV 节目和主持人的播放时间。","og:locale":"en_US","dcterms:publisher":"NewTV", "original-source":"www.newtv.com/","og:url":"www.newtv.com/show/program-guide"}},"post_time":"2019-10-09 11:27 :46","useragent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/77.0.3865.90 Safari/537.36","event_id":"12345"}
上面的消息示例。当源错过从以下示例数据集中发送 event_id 属性的数据时,我目前坚持过滤数据。
当前 Nifi 流程,使用 Kafka -> 评估 Json 路径 -> Jolttransform Json -> 评估 Json 路径 -> RouteOnAttribute -> 合并内容 -> 评估 Json 路径 -> 更新属性 -> PutHDFS -> MoveHDFS
需要帮助如何使用 RouteOnAttribute 拆分数据,以将缺少的 event_id 属性或 attribute_value 区分为两个不同的流。带有属性或属性值和缺失值的流会出错并加载到不同的输出路径中。