问题标签 [apache-storm]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
202 浏览

amazon-web-services - AWS 上是否有任何预构建映像来运行 Twitter - Storm

我对风暴很陌生,我正在尝试在云上运行风暴,所以我使用了来自 github 的storm-deploy 包。但是,如果我做错了什么,请纠正我:

  • - 必须启动实例
  • -手动下载所有软件(java、leinenin等……)
  • -配置风暴
  • - 运行风暴

那么你知道我需要运行storm的包附带的任何亚马逊图像吗?或者可能有人可以共享一些 bash 脚本来完成所有必要的安装。或者可能是我做错了什么????

0 投票
1 回答
220 浏览

jms - Storm 作为多线程消费者/生产者方法的替代品来处理大量数据?

我们有一个现有的设置,上游系统在消息队列上向我们发送消息,我们处理这些消息。内容是 xml,我们只是解组。这个解组步骤之后是写入 db(将相关值放入相关列) . 该系统将与更多上游系统连接,我们的产量将增加到每天 40 毫米的峰值尺寸。

我们当前的处理方式是在队列中设置监听器,然后使用多个生产者和消费者线程进行解组和后续的数据库写入。

我的问题:这个过程是否适合 Storm 用例场景?我的意思是 MQ 可以成为我的喷口,我有 2 个螺栓要解组,然后这将成为下一个写入 db 的螺栓的喷口?

如果是,我可以获得什么好处?是否可以告别繁琐的多线程生产者/工作者代码模式。如果它像上面那样简单,那么在哪里/为什么要使用传统的多线程方法来处理生产者/消费者场景我的观点是,与传统方法相比,Storm 开始大放异彩的数据量/频率。

PS:我对此很陌生,并试图掌握这一点,并想确定思路是否正确

问候, CVM

0 投票
2 回答
754 浏览

hadoop - 对多达 200 列的行进行交互式查询的最佳大数据解决方案是什么?

我们有一个简单的表格,如下所示:

但可能有数亿行/名称。数据将每隔一小时左右填充一次。

目标是在几秒钟内获得对数据进行交互式查询的结果。

大多数查询看起来像:

where 子句包含任意数量的属性名称-值对。

我是大数据方面的新手,想知道在数据存储(MySQL、HBase、Cassandra 等)和处理引擎(Hadoop、Drill、Storm 等)方面,用于上述交互式查询的最佳选择是什么。

0 投票
1 回答
442 浏览

java - Storm中如何选择需要处理的stream源?

我在 Storm 中为一件事而苦苦挣扎。所以整个想法是:

  1. 向storm(可能是DRPC Server)发送请求。该请求将告诉 Storm 流的来源是什么。例如:我有两个文件1 - '/var/log/syslog'2- ' /var/log/udev' 的图像。我希望能够将请求发送到“Storm”,告诉它要处理什么文件。

我不明白的是:

当我说向“风暴”发送请求时, - 我应该将它发送到哪里?(我假设 DRPC 服务器控制需要发送到拓扑的源。但是如何实现 DRPC 服务器?是否有类似的类DRPCServer server = new DRPCServer()?以及如何告诉 Spout 查看 DRPCServer?或者是请求需要直接发送到? if那么Spout如何让它开始使用指定的源呢?我的意思是我需要向open()方法发送请求吗?

0 投票
1 回答
176 浏览

task - How nexttuple and excute be called in storm framework

I think each task will contain an instance of spout or bolt, and a while or for block calls them, is it right?

If so, since every task coordinates to one of some threads running in a worker process, and there is probability that two or more tasks of the same spout or bolt are assigned to the same worker, in this case, do we need to sync (especially if the spout or bolt contains critical resources such as static members)? Why?

0 投票
1 回答
608 浏览

java - Pass real data to the Storms Spout using Non-JVM language in Twitter-Storm

I'm having trouble to understand how to pass real data to the Spout, For example:

I have this two files (they are working fine):

And

Now imagine that I want to pass those random lines to the spout for the future processing, I was trying this: from uuid import uuid4 from select import select from subprocess import Popen,PIPE import storm

and than in nextTuple():

But this structure doesn't work, I'm always getting error "Pipi seems to be broken..." or if I try different variations of this code I am blocking the process, and Storm never riches the NextTuple. Please help me to solve my problem, or if someone can give me some example how to do similar thing, or just some advice. Thank you

0 投票
1 回答
246 浏览

python - 线程在 Storm Cluster 中不起作用

我正在尝试执行以下操作,在将创建队列的单独线程中启动流侦听器,然后稍后处理这些队列......但是Storm在线程之后不做任何事情。它卡在那里。

我的代码如下所示:

0 投票
1 回答
300 浏览

python - 在 Storm Bolt 中使用外部库 (Python) 的限制

我想实现一个 Bolt ( https://github.com/nathanmarz/storm ),它使用 scikit 机器学习 API ( http://scikit-learn.org/ )对元组进行一些繁重的处理

例如 -

这可能吗 ?在集群中的每个节点上安装 sklearn 及其所有依赖项是否足够?

0 投票
1 回答
371 浏览

stream - 使用storm进行增量处理和丰富

我们有一个专为处理社交媒体内容而设计的系统。在我们的风暴拓扑中,我们需要处理一些螺栓,例如情感分析、语言检测、垃圾邮件检测等。在storm上准备的所有教程和示例,我们已经看到一个bolt可以发出在declareOutputFields()方法中声明的元组字段。是否有任何选项可以使用输入元组发出当前螺栓的字段?

例如,我有一个输入元组,其中包含以下字段:

<

文字:bla bla

用户名:保罗

日期:01.01.2013

来源:推特

>

我想将输出元组定义为:

<

文字:bla bla

用户名:保罗

日期:01.01.2013

来源:推特

语言:tr

>

请注意,我希望我的螺栓在螺栓的输出元组模式之前不需要了解任何信息。

谢谢你。

0 投票
2 回答
2753 浏览

java - 在集群中运行 Storm,清理不会被调用

我有以下风暴拓扑代码,我在集群上运行:

当我调试它时,以下cleanup()方法不在类中运行WordCounter......

...并且拓扑没有完成运行。