问题标签 [apache-samza]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
hadoop-yarn - Hello-samza - 任务保持在 Accepted 状态
我正在尝试 从 master 分支启动hello-samza示例。我运行每个命令都没有错误,启动 run-job.sh 没有错误,但是 YARN 中的作业永远保持在 ACCEPTED 状态。
我查看了http://localhost:8088/cluster/nodes并没有显示任何内容 - 这是问题所在吗?YARN 没有连接节点,因此无法分配资源来完成提交的作业?
还显示Total Nodes:0
如果我只是按照说明进行操作,为什么会这样?
apache-samza - Samza on YARN 将其 KV 状态商店放在哪里?
我需要找到 YARN 上的 Samza 将其 KV 状态商店放在哪里。我怀疑它与所有 YARN 应用程序一样位于 YARN 本地应用程序目录中,但我相信它是可配置的,因为几个月前我在不同的环境中这样做(将文件夹映射到内存),但现在不记得了。
为此,我需要能够将 samza KV 存储与其他应用程序的其他 YARN 应用程序数据分开。
hadoop - 如何在远程 Yarn 资源管理器上部署 samza 作业
我们正在 hadoop 纱线上运行 samza 作业。到目前为止,我们通过在资源管理器主机上调用 run-job.sh 来手动部署作业。
Samza 部署脚本和 samza distribtuion tar "samza-dist.tar.gz" 都放在资源管理器本地文件系统上。
但现在我想远程部署工作。为此,我正在尝试使用 Resource Manager Submit apps rest API 。
请求:POST http://hostname:8088/ws/v1/cluster/apps
身体 :
但是我可以从资源管理器 UI 中看到错误
异常消息:/bin/bash:/usr/share/promo-rules-consumer/bin/run-job.sh:没有这样的文件或目录
请告诉我这样做的正确方法。是否有任何链接显示通过 rest API 或通过 java 代码部署 samza 作业。
谢谢
apache-samza - samza 作业中的 MetricsSnapshotReporterFactory 警告
我在 samza 工作中收到以下警告:
[main] WARN oasmrMetricsSnapshotReporterFactory.warn(66) - 无法在 jar 的元信息中找到实现版本。默认为 0.0.1。
我该如何解决?我错过了什么?
apache-kafka - 使用 Samza 时在单独的集群中创建检查点、协调器和变更日志 kafka 主题
当使用带有 samza 的 kafka 时,samza 会使用属性文件中的名称自动创建某些主题,例如检查点、co-oridnator 和更改日志。但是这些主题是在同一个集群中创建的。
但是出于维护目的,我想在单独的集群中创建它们,可以吗?
apache-kafka - nc: 设置 Apache Samza 时找不到命令
当我尝试设置 Apache Samza 时,启动 zookeeper 时找不到 nc 命令。我正在运行命令:
我明白了
我正在 Windows 10 教育版的 git bash 控制台中编写命令。一般来说,我是 samza 和 git bash 的新手。我该如何解决这个问题,或者有没有办法将 nc 命令集成到 git bash 基本命令中?还是我在错误的控制台中运行命令?
apache-samza - 你好-Samza 得到 NullPointException
我没有使用网格脚本来启动 hello-samza 项目http://samza.apache.org/startup/hello-samza/0.11/ 我按照网格脚本中的步骤进行操作
- 下载 hadoop、kafka 和 zookeeper
- 像在网格脚本中一样配置 zookeeper、hadoop、kafka
- 启动zookeeper、yarn、kafka,这一步我可以在浏览器中通过8088端口访问yarn页面
- 然后我运行脚本 bin/run-job.sh --config-factory=org.apache.samza.config.factories.PropertiesConfigFactory --config-path=file://$PWD/deploy/samza/config/wikipedia -feed.properties
我在第 4 步得到 NullPointException。
我认为这与工作未能从 kafka 读取提要有关。我该如何解决这个问题,如何知道哪一步是错误的。
c++ - 我可以通过网络同步/备份 RocksDB 吗?
我有几台机器处理在 RocksDB 中索引的大量文本数据(100 GB)。这些机器用于负载平衡并在相同的数据上运行。添加新机器时,我想尽快通过网络从现有机器复制数据库。
有没有一种优雅的方法可以通过网络进行 RocksDB 备份?我已阅读https://github.com/facebook/rocksdb/wiki/How-to-backup-RocksDB但这需要两倍的磁盘空间:首先要备份到本地文件系统,然后才能将其复制过来网络。我还必须处理例如 rsyncing 文件。
hdfs - 如何从本地文件系统和 hdfs 系统读取 Apache Samza 中的文件
在 Apache Samza 中寻找从本地系统或 HDFS 读取文件的方法,然后应用过滤器、聚合、where 条件、order by、group by 成批数据。请提供一些帮助。