问题标签 [mincemeat]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2277 浏览

python - Mincemeat map 函数返回字典

我正在使用一个名为 mincemeat.py 的 map reduce 实现。它包含一个map函数和reduce函数。首先,我会告诉我我想要完成什么。我正在做一个关于大数据的课程,其中有一个编程任务。问题是有数百个文件包含 paperid:::author1::author2::author3:::papertitle 形式的数据

我们必须浏览所有文件并为特定作者提供他使用最多的词。所以我为它写了下面的代码。

我现在的问题是,reduce 函数必须接收所有作者的作者姓名和他在标题中使用的所有单词。所以我期望像这样的输出

但我得到的是

有人能说出为什么会这样吗?我不需要帮助来解决问题,我需要帮助才能知道为什么会这样!

0 投票
3 回答
12886 浏览

python - 未定义全局名称“re”

我是 python 新手,正在研究 mincemeat 的地图减少问题。运行 mincemeat 脚本时出现以下错误。

我的代码位于 raw1.py 脚本中,该脚本在上面的堆栈跟踪中作为[raw1.py|mapfn|43].

我已经re在 raw1.py 中导入了。re如果我在 mincemeat.py 中导入,则不会出现该错误。

0 投票
1 回答
745 浏览

python - 如何使用 mincemeat 将 example.py 中定义的任务分发到两台客户端计算机?

我已经从https://github.com/michaelfairley/mincemeatpy/zipball/v0.1.2下载了 mincemeat.py 示例

example.py 如下:

它用于字数统计程序。

我已经通过 LAN 连接了网络中的两台计算机。我使用一台计算机作为服务器并在其上运行 example.py;在作为客户端的第二台计算机上,我使用以下命令行语句运行 mincemeat.py:

它工作正常。

现在我已经通过路由器在局域网中连接了 3 台计算机。然后一台机器作为服务器工作,我想在它上面运行 example.py,并将剩下的两台机器作为客户端机器运行。

我想将任务分配给我的两台客户端机器。那么将map和reduce的任务分发到两台计算机的过程是怎样的呢?如何将我在 example.py 中定义的任务分配给分别具有唯一 IP 的两台客户端计算机?

0 投票
1 回答
943 浏览

python - 我无法运行 mincemeat.py - 一堆未知的东西被打印到终端

我正在尝试写一篇关于 map-reduce 的作业。我在终端中运行:

然后在另一个终端:

立即在前一个终端中,输入了一堆东西:

hw3.py 的代码:

在线程Python、Asyncore 和 forks中,提出了以下建议:

将您的 handle_accept() 更改为在 accept() 返回 None 时立即返回。

在文件 mincemeat.py 中有一个函数:

我的问题的解决方案是更改该功能中的某些内容吗?

0 投票
1 回答
662 浏览

python - 我无法访问同一目录中文件中的字典

我尝试写一篇关于 map-reduce 的作业。我在终端中运行:

然后在另一个终端:

hw3.py:

为什么它不起作用?如您所见,hw3.py 和 stopwords.py 都在主目录中!

0 投票
3 回答
10533 浏览

python - 如何将字典作为值传递给python中的函数

在 python 中,我使用的是 mincemeat map-reduce 框架

从我的地图函数中,我想yield (k,v)在一个循环中,它将输出发送到reduce函数(给出的样本数据是我的地图函数的输出)

会有很多这样的条目;这只是几个例子。

在这里,auth3auth34是键,各自的值是字典项

当我尝试打印键值时,在 reduce 函数内部,我收到“太多值无法解包”错误。我的 reduce 函数看起来像这样

请让我知道如何解决此错误。

0 投票
1 回答
409 浏览

python - 使用 mincemeat.py 以列表形式“生成”字典

我正在尝试理解 map-reduce 概念,并研究使用 mincemeat.py(python 的开源库)实现小程序。

我已经使用 mapper 和 reducer 获得了一袋单词的简单字数。但是,我想实现跨文档查找所有单词的 tf-idf 分数。要做到这一点,我认为的第一步是获取类型的字典{[word,docID]->count}。为此,我编写了以下代码

但是,当我运行程序时,我收到以下错误。

我的理解是,当使用 mincemeat.py 时,我们无法在 map 中生成列表,因为错误表明在减少时不需要列表。我对么?如果我是正确的,有没有办法做到这一点?或者,我是否需要查看除 mincemeat 之外的任何其他库?

0 投票
1 回答
246 浏览

python - 为什么我在使用 mincemeat 时在 map-reduce 中不断收到此错误?

我只想从一些 7500 个文件中计算字数,并在某些条件下计算哪些字。程序是这样的。

我在运行这个程序时遇到的错误是

0 投票
1 回答
829 浏览

python - 我很难在 python 中使用 mincemeat 进行 map-reduce 来计算不同文件的字数

这是代码:

此代码应该计算多个文件的字数。但它不断返回错误:

我正在处理的输入文件如下所示。现在我想在不同的文件中添加单词并将它们旁边的数字相加。

替换为 后re.splitline.split()出现此错误。

0 投票
1 回答
182 浏览

python - 巨大的文件作为 mincemeat.py 的数据源

我打算在 ~100GB 文件上使用 mincemeat.py 来完成我的 map reduce 任务。在看到 mincemeat 的示例代码后,我似乎需要输入一个内存字典作为数据源。那么,提供我的大文件作为肉馅数据源的正确方法是什么?

肉糜链接:https ://github.com/michaelfairley/mincemeatpy