问题标签 [disco]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
10170 浏览

c# - WSDL.exe 与“更新 Web 参考”生成的 Web 服务代理代码 - 我应该关心吗?

使用 Visual Studio 2010,我们有一个包含多个网站(不是 Web 应用程序项目)以及命令行和 winforms 项目的解决方案。所有目标.Net 2.0。许多项目在网站中都有对 ASMX Web 服务的 Web 引用。

Web 服务经常更改,因此当我们编译所有内容时,我们必须手动浏览所有项目并更新 Web 服务引用。我现在已经成功地使用disco.exewsdl.exe自动化了这个。但我担心wsdl.exe生成的代码和VS中手动更新网页参考的差异。

wsdl.exe 生成如下代码:

虽然 VS 生成这样的代码:

其他一切基本相同。我需要担心这个吗?这当然意味着我们必须更改覆盖 URL 在 app.config 和 web.config 文件中的存储方式。wsdl.exe 使用 appSettings,VS 使用 configSections/applicationSettings。

PS:我知道 ASMX 是旧的,而 WCF 是新的。我被这个困住了。

更新:发现这篇文章讨论了差异:

如何跨多个 Web 应用程序项目共享动态 URL

http://weblogs.asp.net/bradleyb/archive/2006/05/04/445133.aspx

0 投票
1 回答
184 浏览

python - 为 Disco mapreduce 作业指定输出 uri

我想让一个完整的迪斯科工作直接写入 mongodb。有没有一种简单的方法可以为 Disco 指定一个输出 url 以将其数据发送到?

0 投票
2 回答
1063 浏览

python - 不能调用方法,除非它来自一个类的全局

嗨,我是 Disco 的新手,并将现有代码集成到其中。Disco 是否能够将 map/reduce 函数作为类中的函数而不是全局函数来调用?下面的代码可能解释得更清楚。

执行的结果是

但是,如果我将 map_fun、reduce_fun 更改为全局函数,它会按预期工作。但是我仍然必须找到一种方法让它作为类函数工作,有什么办法吗?

谢谢,

钱德勒

0 投票
1 回答
3695 浏览

python - Python - Map / Reduce - 如何在使用 DISCO 计数单词示例中读取 JSON 特定字段

我正在使用 DISCO 示例来计算文件中的单词:

将单词计数为 map/reduce 作业

我没有问题让它工作,但是我想尝试从包含 JSON 字符串的文本文件中读取特定字段。

该文件的行如下:

我只对“文本”键、值字段感兴趣。在python中我可以这样做:

它返回所有文本字段值,例如:

这很好用,但是当我尝试将相同的方法应用于迪斯科附带的示例 count_words.py 示例时,如下所示:

我收到以下错误:

看起来这应该是直截了当的,但我显然错过了一些东西。

任何人都可以帮忙吗?

0 投票
1 回答
1420 浏览

python - 从 DDFS ValueError 读取数据:无法解码 JSON 对象

我正在使用 disco 为多种不同的目的运行数十个 map reduce 作业。我的数据已经变得庞大,我想我会尝试使用 DDFS 进行更改,而不是使用标准的 txt 文件。

我已经按照 DISCO map/reduce example Counting Words as a map/reduce job进行了操作,在其他人的帮助下没有太多困难,将JSON 特定数据读入 DISCO我已经解决了我最近遇到的一个问题。

我正在尝试从 ddfs 中读取/读取数据以更好地分块并分发它,但遇到了一些麻烦。

这是一个示例文件:file.txt

我将其加载到 DDFS 中:

我测试该文件确实加载到 ddfs 中:

此时一切都很好,我加载了以前的 Stack Post 生成的脚本:

注意:如果 ,此脚本运行文件input=["file.txt"],但是当我运行它时,"tag://data:test1"我收到以下错误:

错误状态:ValueError: No JSON object could be decoded。同样,使用文本文件作为输入但现在使用 DDFS 可以正常工作。

有什么想法,我愿意接受建议吗?

0 投票
0 回答
207 浏览

python - 使用 mapreduce/PIG 或 Disco 将突变映射到染色体位置

目标:将文件 1 中的突变位置映射到文件 2 中的区域或特征。为此,在比较文件 1 和文件 2 的区域的染色体位置之前,您需要确保染色体 (chr1) 和链 (+/-) 相同。

问题:如何使用 mapreduce 或 Disco 将一个位置映射到一个区域...... Aka 在 mapreduce 方法中制定位置 -> 染色体区域?

描述:我有两个中等大小的文件 (10gb) 和两个我想要处理的文件类型。我已经在基本 python 中解析了这些文件,但将来我可能不得不解析许多更大的类似文件,所以我想用 mapreduce(更具体的 hadoop/Pig)或 Disco 来尝试它来学习。

虽然我可以在一个 EC2 集群上运行节点,理想情况下是一个集群 hadoop(是的,我知道它没有达到目的)或者像 Disco 或 Sparc 这样的东西。

我喜欢使用 Pig 的想法,因为这会减少处理来自 .csv 文件的文件的过程,但我不知道如何使用 mapreduce 将某些内容映射到区域,而不仅仅是键/值对

这是我在想什么的视觉表示:正在考虑。

文件信息:

  1. 第一个文件是 TCGA 癌症 SNP 突变。一些重要的功能包括

    • 染色体位置
    • 染色体数
    • 样品编号
    • 其余的不是那么重要
  2. 3' UTR 序列。

    • 染色体起始位置:int
    • 染色体末端位置:int
    • 染色体编号:chrX
    • 链 +/-
    • 基因编号
    • 其余的不是那么重要

示例文件在这里:两个示例文件

最后,如果重要的话,python 是我选择的语言。

0 投票
1 回答
516 浏览

python - 在 Disco 中链接作业 (MapReduce)

我想修改高级教程的 innerjoin-example 以便它可以使用 mapreduce 进行稀疏矩阵乘法(由 Ullman 描述)。因此,我需要第二个 map-reduce 步骤求和结果矩阵中相等位置的值。

不幸的是,我无法将 CsvInnerJoin 类的第一个 reduce 函数的输出获取到 SumJob 的 map 函数中。

CsvInnerJoiner.py 是这个文件:

SumJob.py 是这样的:

问题是我不知道如何更改 (**) 行,以便将第一个 reduce 步骤的第二个输出作为第二个 map 函数的输入。

非常感谢你的帮助!达米安

0 投票
2 回答
723 浏览

python - 没有名为 disco.core 的模块

我一直在关注这里的教程:http: //discoproject.org/doc/disco/start/install.html

并且一直成功到我运行脚本的地步。我得到错误:

我已经按照上面的说明安装了disco,但这似乎没有安装python库。

我尝试使用 conda、pip 和 easy_install 安装它,但没有任何运气。

有人有想法么?

0 投票
1 回答
265 浏览

python - 最简单的迪斯科设置(基于教程)无法启动

我是迪斯科的新手,只是想玩一下。所以我尝试设置文档中描述的最简单的实例。安装了 Erlang 和 Python,我进行了 Git 签出,运行make并通过bin/disco nodaemon. 您可以在下面看到启动从站时的错误消息。由于我是新手,所以我不知道可能出了什么问题以及如何调试。任何提示将不胜感激。

0 投票
1 回答
132 浏览

python - 如何在 DISCO 中的映射器之间获取共享全局对象

我的每个映射器都需要访问非常大的字典。有没有办法可以避免每个映射器打开自己的副本的开销,而是让它们都指向一个全局共享对象?

任何特定于 DISCO 或 mapreduce 范例的建议都会有所帮助。