问题标签 [apache-samza]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
155 浏览

hadoop-yarn - Hello-samza - 任务保持在 Accepted 状态

我正在尝试 从 master 分支启动hello-samza示例。我运行每个命令都没有错误,启动 run-job.sh 没有错误,但是 YARN 中的作业永远保持在 ACCEPTED 状态。

我查看了http://localhost:8088/cluster/nodes并没有显示任何内容 - 这是问题所在吗?YARN 没有连接节点,因此无法分配资源来完成提交的作业?

还显示Total Nodes:0

如果我只是按照说明进行操作,为什么会这样?

0 投票
2 回答
124 浏览

apache-samza - Samza on YARN 将其 KV 状态商店放在哪里?

我需要找到 YARN 上的 Samza 将其 KV 状态商店放在哪里。我怀疑它与所有 YARN 应用程序一样位于 YARN 本地应用程序目录中,但我相信它是可配置的,因为几个月前我在不同的环境中这样做(将文件夹映射到内存),但现在不记得了。

为此,我需要能够将 samza KV 存储与其他应用程序的其他 YARN 应用程序数据分开。

0 投票
1 回答
459 浏览

hadoop - 如何在远程 Yarn 资源管理器上部署 samza 作业

我们正在 hadoop 纱线上运行 samza 作业。到目前为止,我们通过在资源管理器主机上调用 run-job.sh 来手动部署作业。

Samza 部署脚本和 samza distribtuion tar "samza-dist.tar.gz" 都放在资源管理器本地文件系统上。

但现在我想远程部署工作。为此,我正在尝试使用 Resource Manager Submit apps rest API 。

请求:POST http://hostname:8088/ws/v1/cluster/apps

身体 :

但是我可以从资源管理器 UI 中看到错误

异常消息:/bin/bash:/usr/share/promo-rules-consumer/bin/run-job.sh:没有这样的文件或目录

请告诉我这样做的正确方法。是否有任何链接显示通过 rest API 或通过 java 代码部署 samza 作业。

谢谢

0 投票
1 回答
188 浏览

logging - 提高 Apache Samza 中的日志记录级别

我正在尝试更改 Apache Samza 的日志记录级别,以便获取debug语句;默认为info. 更具体地说,我试图让这个调试语句出现。

我在 Clojure 项目中使用 Samza。做这个的最好方式是什么?Samza Logging页面没有提供任何有用的信息。

0 投票
1 回答
49 浏览

apache-samza - samza 作业中的 MetricsSnapshotReporterFactory 警告

我在 samza 工作中收到以下警告:

[main] WARN oasmrMetricsSnapshotReporterFactory.warn(66) - 无法在 jar 的元信息中找到实现版本。默认为 0.0.1。

我该如何解决?我错过了什么?

0 投票
1 回答
176 浏览

apache-kafka - 使用 Samza 时在单独的集群中创建检查点、协调器和变更日志 kafka 主题

当使用带有 samza 的 kafka 时,samza 会使用属性文件中的名称自动创建某些主题,例如检查点、co-oridnator 和更改日志。但是这些主题是在同一个集群中创建的。

但是出于维护目的,我想在单独的集群中创建它们,可以吗?

0 投票
0 回答
1607 浏览

apache-kafka - nc: 设置 Apache Samza 时找不到命令

当我尝试设置 Apache Samza 时,启动 zookeeper 时找不到 nc 命令。我正在运行命令:

我明白了

我正在 Windows 10 教育版的 git bash 控制台中编写命令。一般来说,我是 samza 和 git bash 的新手。我该如何解决这个问题,或者有没有办法将 nc 命令集成到 git bash 基本命令中?还是我在错误的控制台中运行命令?

0 投票
1 回答
105 浏览

apache-samza - 你好-Samza 得到 NullPointException

我没有使用网格脚本来启动 hello-samza 项目http://samza.apache.org/startup/hello-samza/0.11/ 我按照网格脚本中的步骤进行操作

  1. 下载 hadoop、kafka 和 zookeeper
  2. 像在网格脚本中一样配置 zookeeper、hadoop、kafka
  3. 启动zookeeper、yarn、kafka,这一步我可以在浏览器中通过8088端口访问yarn页面
  4. 然后我运行脚本 bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/deploy/samza/config/wikipedia -feed.properties

我在第 4 步得到 NullPointException。

我认为这与工作未能从 kafka 读取提要有关。我该如何解决这个问题,如何知道哪一步是错误的。

0 投票
0 回答
827 浏览

c++ - 我可以通过网络同步/备份 RocksDB 吗?

我有几台机器处理在 RocksDB 中索引的大量文本数据(100 GB)。这些机器用于负载平衡并在相同的数据上运行。添加新机器时,我想尽快通过网络从现有机器复制数据库。

有没有一种优雅的方法可以通过网络进行 RocksDB 备份?我已阅读https://github.com/facebook/rocksdb/wiki/How-to-backup-RocksDB但这需要两倍的磁盘空间:首先要备份到本地文件系统,然后才能将其复制过来网络。我还必须处理例如 rsyncing 文件。

0 投票
2 回答
155 浏览

hdfs - 如何从本地文件系统和 hdfs 系统读取 Apache Samza 中的文件

在 Apache Samza 中寻找从本地系统或 HDFS 读取文件的方法,然后应用过滤器、聚合、where 条件、order by、group by 成批数据。请提供一些帮助。