问题标签 [morphline]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
583 浏览

hbase - Morphlines 命令 extractHBaseCells 不支持 hbase 中的 avro 对象,有解决方法吗?

我正在使用 CDH4.4。我有一个当前正在运行的应用程序,它通过 avro 将记录序列化到 hbase 中的单个列中。我正在将此表的当前 solr 索引移动到 solrcloud 中,因此我正在测试 MapReduceIndexerTool 以对整个表进行批量索引。我有一个非常简单的 morphlines 文件,它目前使用“extractHBaseCells”从 HBase 读取记录。

我设置了一个跟踪器概念验证,仅索引 rowkey => id 并将 avro blob 填充到另一个字段中,只是为了验证我可以从 HBase 获取数据到我在 SolrCloud 中的集合,并且有效。但我想解析 avro 并将这些值粘贴到 solrdocuments 上它们自己的字段中,然后再将它们提交给 solrcloud。但似乎“extractHBaseCells”的性质阻止了这一点。如果有一个 hbase reader 命令发出更通用的输出,然后可以流入 morphlines 中的 avro 命令,我相信我可以解决我自己的问题。

是否有任何已知的解决方法来解析已存储在 HBase 中的 avro,或者可能有更多可以解决此问题的 morphlines 命令?

0 投票
1 回答
669 浏览

hadoop - MapReduceIndexerTool 无法正确重新索引文档

我目前正在尝试使用在 Cloudera 快速入门 vm 上开发的 Cloudera Search 批处理索引来批处理我目前在文本文件中的数据。我相信我的架构和 morphline 有问题,因为它完成了工作,并且当我进入 Solr 仪表板时,它的索引但没有文档存在时似乎正在工作。核心显示,但它只是零文档。我确信我正在运行的命令和 cloudera 搜索在它允许我批量索引我使用示例输入文件、模式和 morphline 文件时的示例之前它工作正常,并且索引并将文档添加到核。我用来执行此操作的命令是:

我的架构是:

对于我的 morphline 文件,我使用的是在示例中找到的仅读取单行的文件,即:

我的示例输入是:(DocID tab Sentence)

0 投票
0 回答
148 浏览

hadoop - Morphline 读取一个大文件

我有一个 Hive 表,我正在尝试使用 morphline 将其索引到 SolrCloud,但是,Hive 表后面的数据是一个 20GB 的大文件,morphline 需要很长时间才能处理。

而不是运行多个映射器和缩减器,只能运行 1 个映射器,这可能是因为我们只有一个文件。

而且它仍然只踢出一份工作......这需要永远,有人能对此有所了解吗?

资源 您可能会觉得有帮助:

  1. Cloudera Mapreduce 批量索引到 Solrcloud
  2. 吗啉所属的Kitesdk。
0 投票
1 回答
286 浏览

flume - Flume morphline 拦截器:用于数据清洗

我有一个实时的简单结构化输入。但它的值也有垃圾,比如在某个地方有“@”或十六进制字符。

如何使用 morphline 水槽拦截器来清理数据?

我这里的水槽将是 hbase。

0 投票
1 回答
568 浏览

solr - 如何使用基于行的 lily morphline 在 solr 中插入多值字段

我正在尝试从 HBase 中的基于行的结构将逗号分隔的字符串作为多值字段插入到我的 morphline 配置中。

任何人都可以建议任何更好的方法或经验我是新手。

有什么办法我可以做到这一点。

HBase-Indexer 映射器:

吗啉配置:

它只是像这样制作一个字符串:

更新

试过这个,它适用于基于行的映射或高结构。

0 投票
1 回答
284 浏览

solr - Morphlines 日期格式异常

我想像这样将字段转换为日期格式:

输入格式是yyyy-MM-dd,我只想输出 year's part yyyy

但是当我运行它时 - 我有一个例外: org.apache.solr.common.SolrException: Invalid Date String:'1992-06-04'.

我在这里读到morphline 需要强制格式yyyy-MM-dd'T'HH:mm:ss'Z',但您可以在 morphline 的Github上找到 TimestampBuilder 具有默认格式日期,例如:

即使我将输出格式更改为yyyy-MM-dd. 只有当我添加常量后缀时它才会消失,例如:T23:59:59Z

0 投票
1 回答
188 浏览

indexing - Morphline 配置文件未索引 avro nexted 数据

我在 solr 中为我的 avro 数据生成索引。索引只会为位于根级别而不是嵌套的数据元素生成。以下是示例架构(不包括全部)

我的 Avro 架构如下。

如何在我的 morphline 配置文件中引用“TransactionID”。我尝试了所有选项,但它不会为嵌套的数据元素生成索引。

下面是我的 morphline 配置文件的示例。

0 投票
1 回答
922 浏览

hadoop - 水槽风筝吗啉:com.fasterxml.jackson.core.JsonParseException:意外的输入结束:预期的对象关闭标记

在处理水槽(1.6 和 1.7)时,我遇到了以下错误

我的代理管道设置为从 spooldir 源摄取 json 数据,使用 morphline 拦截器提取和转换。

请参阅下面的水槽配置摘录

0 投票
1 回答
37 浏览

flume - 在本地设置 Flume

我可以在本地机器上设置水槽吗?

我只能在集群环境中查看 Flume 的设置指南。

我必须设置水槽并且必须将它与吗啉集成。

0 投票
1 回答
89 浏览

configuration - 使用 Morphlines 中的 ReadJson 命令将整个 JsonObject 保存到变量中?

我查看了 Morphlines 的文档(可在http://cloudera.github.io/cdk/docs/current/cdk-morphlines/morphlinesReferenceGuide.html 获得),从外观上看,没有办法存储使用 ReadJson{} 命令将整个 Json 对象转换为 Morphlines 中的变量。我知道这可以使用 ReadLine{} 命令和这段代码:

我想知道是否有人知道使用 ReadJson{} 执行类似命令以将整个事件/对象/消息存储在变量中的方法,或者这是否仅适用于 ReadLine{}?

失败了,我想知道是否可以在同一个 Morphlines 配置文件中独立使用 ReadLine{} 和 ReadJson{}?