问题标签 [apache-storm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
406 浏览

ubuntu - 使用 Supervisor 工具启动时,storm ui 显示内部服务器错误

我已经安装了主管来监控 Storm 守护进程。我可以使用 supevisorctl 可执行文件重新启动、停止、启动等。但是,当我检查 Storm UI ( ip:8080) 时,它显示内部服务器错误。但是,在直接启动守护进程(使用bin/storm ui, bin/storm nimbus, bin/storm supervisor)时,UI 会毫无问题地显示在端口 8080 上。可能是什么原因?

0 投票
3 回答
3665 浏览

java - 将 jsoup 添加为提供的依赖项后,Storm 命令失败并显示 NoClassDefFoundError

我在我的项目中使用 JSoup 并且我已经在我的POM文件中声明了依赖项。它编译得很好,也运行得很好,但只有当我使用jar with all dependencies并将依赖范围更改为compiled.

如果我将此范围更改为provided,那么我仍然可以正常编译,但不能运行它。它给了我ClassNotFoundException. classpath我已经在变量中包含了必要的 JAR 文件,path但我仍然面临这个问题。

我可以使用 compile 选项,但我真的很恼火,为什么我不能使用提供的选项运行它,如果有人能帮我弄清楚原因,我将不胜感激。

以下是我看到的错误:

以下是我的 POM 文件:

以下是我的系统变量:

0 投票
1 回答
2580 浏览

python - 有没有用 Python 编写的 Twitter Storm 的替代品?

经过各种搜索,我找不到太多Twitter Storm的替代品。特别是不使用批处理的流式大数据处理库,例如 Hadoop MapReduce 使用批处理。

有没有这样的东西,那就是 100% Python?

0 投票
3 回答
798 浏览

events - 拉米纳 vs 风暴

我正在设计一个原型实时监视器,用于处理相当大量(>30G/天)的流式数字数据。我想用 Clojure 写这个,因为这种语言似乎很适合这种“观察者 + 状态机”系统,这可能最终会成为。

我为框架找到的两个主要候选者是 Lamina 和 Storm。还有 Riemann 和 Pulse,但前者似乎更像是一个完整的解决方案而不是一个框架,我宁愿不承诺最终设计;Pulse 的 repo 看起来有点无人维护?

我想知道的是;这两个项目针对什么样的数据和工作流程进行了优化?Storm 似乎更成熟,但 Lamina 似乎更可组合和“Clojureic”(我的背景是 Python,所以我倾向于高度评价它)。

我从网上阅读中发现:

  • Storm 似乎专注于大数据(流),核心是带有 Clojure DSL 的纯 Java。它似乎为许多现有数据源预先构建了处理程序。

  • Lamina 更像是一个轻量级的、可重用的组件,它执行 Clojure 对抽象进行编码的事情,这意味着它可以被重用为其他事件系统的基础。数据源需要在代码中处理。

  • 两者都有一组有用的聚合/拆分/计算库函数开箱即用。Lamina 的 graphviz 集成是一个不错的选择。

0 投票
2 回答
1319 浏览

redis - 计算 Storm 中的前 10 个结果

我正在从 redis 服务器读取句子并计算每个单词的出现次数。现在我想根据计数计算前 10 个单词。我有一个 Spout 可以从 Redis Server 读取句子,一个 Bolt 可以将句子分解成单词,一个 Bolt 可以计算单词。

根据计数找到前 10 个单词的方法应该是什么?

0 投票
4 回答
3584 浏览

hdfs - Kafka Storm HDFS/S3 数据流

目前尚不清楚您是否可以像在 Flume 中那样在 Kafka 中进行扇出(复制)。

我想让 Kafka 将数据保存到 HDFS 或 S3 并将该数据的副本发送到 Storm 以进行实时处理。Storm 聚合/分析的输出将存储在 Cassandra 中。我看到一些实现将所有数据从 Kafka 流入 Storm,然后从 Storm 流出两个输出。但是,我想消除 Storm 对原始数据存储的依赖。

这可能吗?您是否知道任何这样的文档/示例/实现?

另外,Kafka 对 S3 存储有很好的支持吗?

我看到 Camus 用于存储到 HDFS——你只是通过 cron 运行这项工作来不断地将数据从 Kafka 加载到 HDFS 吗?如果第二个作业实例在前一个作业完成之前开始,会发生什么?最后,Camus 会与 S3 一起工作吗?

谢谢,我很感激!

0 投票
1 回答
11676 浏览

parallel-processing - Storm并行中的“任务”是什么

我正在尝试通过阅读精彩文章“了解 Storm 拓扑的并行性”来学习 twitter Storm

但是,我对“任务”的概念有些困惑。任务是组件(spout 或 bolt)的运行实例吗?具有多个任务的执行者实际上是说执行者多次执行相同的组件,对吗?

此外,在一般并行性的意义上,Storm 将为 spout 或 bolt 生成一个专用线程(执行器),但是具有多个任务的执行器(线程)对并行性有何贡献?我认为在一个线程中有多个任务,因为一个线程顺序执行,只会使线程成为一种“缓存”资源,从而避免为下一个任务运行产生新线程。我对么?

在花更多时间调查之后,我可能会自己消除这些困惑,但你知道,我们都喜欢 stackoverflow ;-)

提前致谢。

0 投票
3 回答
5906 浏览

java - 存储数据时出现弹性搜索异常

我正在尝试使用 Storm 和 ElasticSearch 索引实时蒸汽,但我遇到了这个异常。我正在使用以下版本的 ElasticSearch

关于我应该从哪里开始寻找的任何指示?

0 投票
2 回答
15205 浏览

java - 使用 Kafka Spout 的 Kafka Storm 集成

我正在使用 KafkaSpout。请在下面找到测试程序。

我正在使用 Storm 0.8.1。Storm 0.8.2 中有 Multischeme 类。我会用那个。我只想通过实例化 StringScheme() 类来了解早期版本是如何工作的?我在哪里可以下载早期版本的 Kafka Spout?但我怀疑这不是在 Storm 0.8.2 上工作的正确选择。???(使困惑)

当我在storm集群上运行代码(如下所示)时(即当我推送我的拓扑时)我得到以下错误(当Scheme部分被注释时会发生这种情况,当然我会得到编译器错误,因为该类在0.8中不存在.1):

在下面给出的代码中,您可能会发现 spoutConfig.scheme=new StringScheme(); 部分评论。如果我不评论那条很自然的行,我会收到编译器错误,因为那里没有构造函数。此外,当我实例化 MultiScheme 时,我会收到错误,因为我在 0.8.1 中没有该类。

0 投票
2 回答
2408 浏览

java - 风暴流:无法运行程序“解压缩”(在目录“.”中)

我正在开发一个 Storm 项目,并且一直在本地模式下运行它。过去几天我一直在构建代码,今天早上才运行它,并在控制台中收到此错误。

我注释掉了我的主要功能中的所有内容,剩下的就是:

异常在 cluster.submitToplogy 行引发。我的同事在他的电脑上有完全相同的项目设置,也注释掉了这些行,它工作正常。我已经下载了解压缩程序,但我不知道把它放在哪里,或者为什么会抛出这个错误。有没有人有任何想法?