问题标签 [disco]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
649 浏览

sharepoint - SharePoint:创建迪斯科的问题

我已经按照http://msdn.microsoft.com/en-us/library/ms464040.aspx的说明进行操作,当我运行 disco.exe 时出现此错误:

HTML 文档不包含 Web 服务发现信息。

有什么建议么?

http://msdn.microsoft.com/en-us/library/ms464040.aspx

0 投票
0 回答
322 浏览

python - 关于迪斯科文件访问的困惑

我有一个简单的 2 节点集群(一个主节点,两个节点集群)。我尝试使用:

分发文件(工作正常)。

我预计这意味着这些进程将产生并且仅对本地数据进行操作,但似乎它们有时会尝试访问另一台机器上的数据。

相反,我完全复制了数据目录。一切正常,直到减少部分。我收到错误:

似乎该项目预计将通过 http 直接访问。但我不认为这是正确的。文件应该通过http来回传递吗?我必须有一个用于多节点 MapReduce 的分布式 FS 吗?

0 投票
1 回答
913 浏览

python - Disco/MapReduce:使用先前迭代的结果作为新迭代的输入

目前正在 Disco 上实施 PageRank。作为一种迭代算法,一次迭代的结果被用作下一次迭代的输入。

我有一个代表所有链接的大文件,每一行代表一个页面,行中的值代表它链接到的页面。

对于 Disco,我将这个文件分成 N 个块,然后运行 ​​MapReduce 一轮。结果,我得到了一组 (page, rank) 元组。

我想将此排名提供给下一次迭代。但是,现在我的映射器需要两个输入:图形文件和页面排名。

  1. 我想将图形文件和页面排名“压缩”在一起,这样每一行代表一个页面,它是排名,它是链接。
  2. 由于这个图形文件被分成 N 个块,我需要将 pagerank 向量拆分为 N 个并行块,并将 pagerank 向量的区域压缩到图形块

这一切似乎都比必要的复杂,并且作为一个非常简单的操作(使用典型的 mapreduce 算法),我似乎错过了一些关于 Disco 可以真正简化方法的东西。

有什么想法吗?

0 投票
1 回答
476 浏览

python - Disco/MapReduce:在拆分数据上使用 chain_reader

我的算法目前使用 nr_reduces 1 因为我需要确保给定键的数据是聚合的。

要将输入传递给下一次迭代,应该使用“chain_reader”。但是,映射器的结果是单个结果列表,这似乎意味着下一次映射迭代将作为单个映射器进行!有没有办法拆分结果以触发多个映射器?

0 投票
1 回答
251 浏览

apache-flex - WCF 未能被 Flex 代码使用

我有https://mysite/myservice.asmx,它可以与 Flashbuilder 一起使用。当我将它移植到https://mysite/myservice.svc并生成代理对象时,flash 代理对象无法调用任何操作。我想,在 Web 服务调用期间,操作合同由https://mysite/myservice.asmx?op=myOp 获得,但在 WCF 中,https://mysite/myservice.svc?op=myOp提供了迪斯科文件参考。有没有做过什么?有没有人从 Flex 调用 WCF?

0 投票
1 回答
5546 浏览

visual-studio-2010 - 生成 WSDL 和迪斯科文件

我想自动生成一个wsdl 和一个disco 文件(例如通过一个bat 文件)。

如果将服务引用添加到(测试)项目,将生成这些文件。

wsdl.exe 和 disco.exe 丢失。

你能告诉我最佳做法吗?

0 投票
2 回答
567 浏览

python - 对存储在 Discodex 中的数据运行 Disco map-reduce 作业

我有大量需要提供随机访问的静态数据。因为,我使用 Disco 来消化它,所以我在 Disco 分布式文件系统之上使用了非常令人印象深刻的 Discodex(键、值)存储。但是,Disco 的文档相当稀疏,所以我不知道如何使用我的 Discodex 索引作为 Disco 作业的输入。

这甚至可能吗?如果是这样,我该怎么做?

或者,我想错了?将这些数据作为文本文件存储在 DDFS 上会更好吗?

0 投票
1 回答
274 浏览

python - Disco 的“Could not parse worker event:”错误是什么意思?

marshal我正在尝试使用 map 和 reduce 函数运行 Disco 作业,这些函数在使用库通过 TCP 套接字传递后被反序列化。具体来说,我用

我已经在同一系统上测试了普通的 Disco 作业(具有本地定义的功能),并且它们运行良好。但是,当我使用新功能运行 Disco 作业时,作业不断失败并且我不断收到错误消息localhost WARNING: [map:0] Could not parse worker event: invalid_length

我搜索了文档,没有提到我可以找到“工人事件”或invalid_length. 在对源代码执行 grep 后,我找到了短语“无法解析工作者事件:”的单个实例,特别是在文件master/src/disco_worker.erl. 我不熟悉 Erlang,也不知道它是如何工作的。

是什么导致了这个问题?我应该做其他事情来规避它吗?

编辑:经过更多调试,我意识到这个错误与我在测试用例函数中使用 string.split() 方法有关。无论何时使用它(即使在不属于输入的字符串上),都会引发此错误。我已经验证该方法确实存在于对象上,但调用它似乎会导致问题。有什么想法吗?

编辑 2:此外,任何使用 re.split 函数都可以达到相同的效果。

编辑 3:似乎在 map 函数中的输入字符串上调用任何字符串函数都会产生同样的错误。

0 投票
2 回答
2797 浏览

python - 用于 Map-Reduce 的 Celery,还是 Python 中的其他替代品?

我有非常适合在 map-and-reduce 模型下运行的昂贵工作(长话短说,它是聚合之前通过一些耗时算法计算的几百个排名)。

我想并行化集群上的作业(不仅仅是多处理),并专注于 2 个实现:CeleryDisco。Celery 不支持开箱即用的朴素 map-and-reduce,虽然“map”部分很容易使用 TaskSets 完成,但如何有效地实现“reduce”部分?

(我对 disco 的问题是它不能在 Windows 上运行,而且我已经为程序的另一部分设置了 celery,因此为 map-reduce 运行另一个框架似乎相当不雅。)

0 投票
1 回答
1526 浏览

mapreduce - mapreduce 与其他并行处理解决方案

因此,问题是: 1. 对于以下问题,mapreduce 开销是否太高?有没有人知道每个 map/reduce 周期(例如在 Disco 中)需要多长时间才能完成一项非常轻松的工作?2.对于这个问题,有没有更好的mapreduce替代方案?

在 map reduce 术语中,我的程序由 60 个 map 阶段和 60 个 reduce 阶段组成,所有这些都需要在 1 秒内完成。我需要以这种方式解决的问题之一是使用大约 64000 个变量进行最小搜索。用于搜索的 hessian 矩阵是一个块矩阵,沿对角线有 1000 个大小为 64x64 的块,最右边和最底部有一排块。块矩阵求逆算法的最后一部分展示了这是如何完成的。每个 Schur 补集 S_A 和 S_D 都可以在一个 mapreduce 步骤中计算。逆的计算需要多一步。

从我目前的研究来看,mpi4py 似乎是一个不错的选择。每个进程都可以执行一个计算步骤并在每个步骤之后向客户端报告,并且客户端可以使用新的状态变量进行报告以继续循环。这样,进程状态不会丢失,计算可以继续进行任何更新。 http://mpi4py.scipy.org/docs/usrman/index.html

这个维基有一些建议,但有没有人对最发达的解决方案有一个方向: http ://wiki.python.org/moin/ParallelProcessing

谢谢 !