问题标签 [disco]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
sharepoint - SharePoint:创建迪斯科的问题
我已经按照http://msdn.microsoft.com/en-us/library/ms464040.aspx的说明进行操作,当我运行 disco.exe 时出现此错误:
HTML 文档不包含 Web 服务发现信息。
有什么建议么?
python - 关于迪斯科文件访问的困惑
我有一个简单的 2 节点集群(一个主节点,两个节点集群)。我尝试使用:
分发文件(工作正常)。
我预计这意味着这些进程将产生并且仅对本地数据进行操作,但似乎它们有时会尝试访问另一台机器上的数据。
相反,我完全复制了数据目录。一切正常,直到减少部分。我收到错误:
似乎该项目预计将通过 http 直接访问。但我不认为这是正确的。文件应该通过http来回传递吗?我必须有一个用于多节点 MapReduce 的分布式 FS 吗?
python - Disco/MapReduce:使用先前迭代的结果作为新迭代的输入
目前正在 Disco 上实施 PageRank。作为一种迭代算法,一次迭代的结果被用作下一次迭代的输入。
我有一个代表所有链接的大文件,每一行代表一个页面,行中的值代表它链接到的页面。
对于 Disco,我将这个文件分成 N 个块,然后运行 MapReduce 一轮。结果,我得到了一组 (page, rank) 元组。
我想将此排名提供给下一次迭代。但是,现在我的映射器需要两个输入:图形文件和页面排名。
- 我想将图形文件和页面排名“压缩”在一起,这样每一行代表一个页面,它是排名,它是链接。
- 由于这个图形文件被分成 N 个块,我需要将 pagerank 向量拆分为 N 个并行块,并将 pagerank 向量的区域压缩到图形块
这一切似乎都比必要的复杂,并且作为一个非常简单的操作(使用典型的 mapreduce 算法),我似乎错过了一些关于 Disco 可以真正简化方法的东西。
有什么想法吗?
python - Disco/MapReduce:在拆分数据上使用 chain_reader
我的算法目前使用 nr_reduces 1 因为我需要确保给定键的数据是聚合的。
要将输入传递给下一次迭代,应该使用“chain_reader”。但是,映射器的结果是单个结果列表,这似乎意味着下一次映射迭代将作为单个映射器进行!有没有办法拆分结果以触发多个映射器?
apache-flex - WCF 未能被 Flex 代码使用
我有https://mysite/myservice.asmx,它可以与 Flashbuilder 一起使用。当我将它移植到https://mysite/myservice.svc并生成代理对象时,flash 代理对象无法调用任何操作。我想,在 Web 服务调用期间,操作合同由https://mysite/myservice.asmx?op=myOp 获得,但在 WCF 中,https://mysite/myservice.svc?op=myOp提供了迪斯科文件参考。有没有做过什么?有没有人从 Flex 调用 WCF?
visual-studio-2010 - 生成 WSDL 和迪斯科文件
我想自动生成一个wsdl 和一个disco 文件(例如通过一个bat 文件)。
如果将服务引用添加到(测试)项目,将生成这些文件。
wsdl.exe 和 disco.exe 丢失。
你能告诉我最佳做法吗?
python - 对存储在 Discodex 中的数据运行 Disco map-reduce 作业
我有大量需要提供随机访问的静态数据。因为,我使用 Disco 来消化它,所以我在 Disco 分布式文件系统之上使用了非常令人印象深刻的 Discodex(键、值)存储。但是,Disco 的文档相当稀疏,所以我不知道如何使用我的 Discodex 索引作为 Disco 作业的输入。
这甚至可能吗?如果是这样,我该怎么做?
或者,我想错了?将这些数据作为文本文件存储在 DDFS 上会更好吗?
python - Disco 的“Could not parse worker event:”错误是什么意思?
marshal
我正在尝试使用 map 和 reduce 函数运行 Disco 作业,这些函数在使用库通过 TCP 套接字传递后被反序列化。具体来说,我用
我已经在同一系统上测试了普通的 Disco 作业(具有本地定义的功能),并且它们运行良好。但是,当我使用新功能运行 Disco 作业时,作业不断失败并且我不断收到错误消息localhost WARNING: [map:0] Could not parse worker event: invalid_length
我搜索了文档,没有提到我可以找到“工人事件”或invalid_length
. 在对源代码执行 grep 后,我找到了短语“无法解析工作者事件:”的单个实例,特别是在文件master/src/disco_worker.erl
. 我不熟悉 Erlang,也不知道它是如何工作的。
是什么导致了这个问题?我应该做其他事情来规避它吗?
编辑:经过更多调试,我意识到这个错误与我在测试用例函数中使用 string.split() 方法有关。无论何时使用它(即使在不属于输入的字符串上),都会引发此错误。我已经验证该方法确实存在于对象上,但调用它似乎会导致问题。有什么想法吗?
编辑 2:此外,任何使用 re.split 函数都可以达到相同的效果。
编辑 3:似乎在 map 函数中的输入字符串上调用任何字符串函数都会产生同样的错误。
mapreduce - mapreduce 与其他并行处理解决方案
因此,问题是: 1. 对于以下问题,mapreduce 开销是否太高?有没有人知道每个 map/reduce 周期(例如在 Disco 中)需要多长时间才能完成一项非常轻松的工作?2.对于这个问题,有没有更好的mapreduce替代方案?
在 map reduce 术语中,我的程序由 60 个 map 阶段和 60 个 reduce 阶段组成,所有这些都需要在 1 秒内完成。我需要以这种方式解决的问题之一是使用大约 64000 个变量进行最小搜索。用于搜索的 hessian 矩阵是一个块矩阵,沿对角线有 1000 个大小为 64x64 的块,最右边和最底部有一排块。块矩阵求逆算法的最后一部分展示了这是如何完成的。每个 Schur 补集 S_A 和 S_D 都可以在一个 mapreduce 步骤中计算。逆的计算需要多一步。
从我目前的研究来看,mpi4py 似乎是一个不错的选择。每个进程都可以执行一个计算步骤并在每个步骤之后向客户端报告,并且客户端可以使用新的状态变量进行报告以继续循环。这样,进程状态不会丢失,计算可以继续进行任何更新。 http://mpi4py.scipy.org/docs/usrman/index.html
这个维基有一些建议,但有没有人对最发达的解决方案有一个方向: http ://wiki.python.org/moin/ParallelProcessing
谢谢 !