“apache-samza”的相关标签问题

0 投票

1 回答

3009 浏览

scala - Scala错误：未绑定的占位符参数和模式匹配条件

我正在尝试结合模式匹配和条件，但是这段代码（这是一个 Samza 任务）：

返回此错误：

你知道错误吗？

谢谢

问候

詹卢卡

2015-08-01T06:59:21.257

0 投票

2 回答

561 浏览

neo4j - Apache Samza 本地存储 - OrientDB / Neo4J 图而不是 KV 存储

Apache Samza 使用 RocksDB 作为本地存储的存储引擎。这允许有状态的流处理，这里有一个很好的概述。

我的用例：

我有多个事件流，我希望从 Apache Kafka 等系统中获取这些事件流。
这些事件创建状态 - 我希望跟踪的状态基于以前收到的消息。
我希望根据计算的状态生成新的流事件。
输入流事件高度连接，OrientDB / Neo4J 等图形是查询数据以创建新流事件的理想媒介。

我的问题：

是否可以使用非 KV 存储作为 Samza 的本地存储？有没有人用 OrientDB / Neo4J 做过这个，有人知道一个例子吗？

neo4j apache-kafka orientdb stream-processing apache-samza

2015-08-13T16:39:25.143

0 投票

2 回答

235 浏览

gradle - gradle 失败的 Samza 构建

在 samza-core 上执行测试时，使用 gradle 构建 Samza 失败。

以下是我面临的例外：

请分享你的想法...

gradle build.gradle gradlew apache-samza

2015-08-21T04:15:38.833

0 投票

1 回答

449 浏览

scala - 如何使用 Samza 在 Kafka 主题上创建分区？

我有一些 Samza 作业运行所有从 Kafka 主题读取消息并将新消息写入新主题。为了发送新消息，我使用了 Samza 内置的 OutgoingMessageEnvelope。还使用 MessageCollector 发送新消息。它看起来像这样：

有没有办法可以使用它向 Kafka 主题添加分区？例如对用户 ID 进行分区或类似的东西。

或者，如果有更好的方法，我很想听！

scala apache-kafka partitioning apache-samza

2015-09-03T20:57:19.543

0 投票

1 回答

160 浏览

real-time - Apache Storm 聚合规则，用于在滚动时间段内丢失预期事件

我的用例是实时识别在 X 时间后未收到预期事件的实体，而不是使用批处理作业。例如：

如果我们在时间 T 收到了 PaymentInitiated 事件，但在 T+X 时没有收到 PaymentFailed / PaymentAborted / PaymentSucedded 中的任何一个，则引发一个触发器，说明 PaymentStuck 以及 PaymentIntitiated 事件的详细信息。

我如何在 Apache Storm 中为此类用例建模，因为它在每个事件上滚动时间段 X，而不是固定时间间隔。

谢谢，哈里什

real-time distributed-computing complex-event-processing apache-storm apache-samza

2015-09-26T18:20:58.950

0 投票

1 回答

72 浏览

real-time - Apache Samza 聚合规则，用于在滚动时间段内丢失预期事件

我的用例是实时识别 X 时间后未收到预期事件的实体。

例如：如果我们在时间 T 收到了 PaymentInitiated 事件，但在 T+X 时没有收到 PaymentFailed / PaymentAborted / PaymentSucedded 中的任何一个，则引发一个触发器，说明 PaymentStuck 以及 PaymentIntitiated 事件的详细信息。

我如何在 Apache Samza 中为此类用例建模，因为它在每个事件上滚动时间段 X，而不是固定时间间隔。

谢谢，哈里什

real-time distributed-computing stream-processing apache-samza

2015-09-28T17:40:40.060

0 投票

2 回答

1065 浏览

hadoop - 纱线java进程没有被杀死

我已经安装了 Apache Samza，它使用 Yarn 来管理作业。它在虚拟机上的两台 Debian 服务器上运行。Samza 是 0.9.1 版。Hadoop 是 2.6.0 版。我看到两个不同的问题，我不确定它们是否相关，但看起来 Yarn 没有做它应该做的事情。

当我尝试使用 samza (kill-yarn-job.sh) 提供的脚本终止作业时，我在 Web 界面中看到作业将状态从 Running 或 Accepted 更改为 Killed，但 java 进程仍在运行。很长一段时间后，杀死他们的唯一方法就是用艰难的方式： kill -9 。
尽管我一直在更改 yarn-site.xml 值，但我只能运行一个作业。我的机器有 4 Gb 内存和 4 个 cpu 核心。这是内容

纱线站点.xml：

在我配置的作业选项文件中添加了以下内容：

当作业运行时，我可以看到 -Xms128M -Xmx128M 选项被忽略并使用默认值。

我看到了以下错误。看起来一些内存限制正在阻止作业从 Accepted 变为 Running，但我找不到解决方法。

实际上工作只是干净的功能，所以我的代码都不应该引入噪音。

知道有什么问题吗？

更新：在接受状态停留约 10 分钟后，它变为失败。这是我在 yarn-root-resourcemanager-kfk-samza01.out 日志中看到的部分内容：

有什么线索吗？

hadoop hadoop-yarn apache-samza

2015-09-29T07:55:26.220

0 投票

1 回答

239 浏览

apache-kafka - Samza 的 OutgoingMessageEnvelope 是否需要用于 partitionKey 的 SerDe 以及如何指定它？

与how-can-you-create-a-partition-on-a-kafka-topic-using-samza 类似，我需要构造一条消息来控制它如何通过使用 partitionKey 进行路由。key 和 message 确实需要 SerDe，但我不确定 partitionKey 是否也需要。如果是这样，配置语法是什么？我想我可以在内部使用 key 作为 partitionKey 来依赖 Samza，但我宁愿让它们明确和分开。

apache-kafka apache-samza

2015-10-01T15:38:09.093

0 投票

1 回答

120 浏览

hadoop - Storm 框架应用

我使用 Hadoop 构建了一个用于在分布式环境中搜索类似图像存储的应用程序。但是Hadoop不支持实时处理，所以响应时间长。我知道Storm是大数据分析应用的另一个框架。但是我很困惑我们是否可以使用 Storm 来实现这种应用程序。

有没有人建议什么样的应用程序可以有效地使用 Storm 框架。

hadoop apache-spark apache-storm spark-streaming apache-samza

2015-10-07T11:12:56.333

0 投票

1 回答

525 浏览

hadoop - 如何在 HDFS 上部署和运行 Samza 作业？

我想在远程系统上运行 Samza 作业，并将 Samza 作业存储在 HDFS 上。在煤机上运行 Samza 作业的示例 ( https://samza.apache.org/startup/hello-samza/0.7.0/ ) 包括构建 tar 文件，然后解压缩 tar 文件，然后运行 shell 脚本它位于 tar 文件中。

这里的 HDFS 示例根本没有很好的记录（https://samza.apache.org/learn/tutorials/0.7.0/deploy-samza-job-from-hdfs.html）。它说将 tar 文件复制到 HDFS，然后按照非 HDFS 示例中的其他步骤进行操作。

这意味着现在驻留在 HDFS 上的 tar 文件需要在 HDFS 中解压缩，然后在该解压缩的 tar 文件上运行一个 shell 脚本。但是您不能使用 hadoop fs shell 解压 HDFS tar 文件...

如果不解压缩 tar 文件，您将无权访问 run-job.sh 来启动 Samza 作业。

有没有人设法让这个工作？

hadoop hdfs apache-samza

2015-10-28T13:20:31.933

问题标签 [apache-samza]

Reference