问题标签 [input-split]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
55 浏览

hadoop - 映射器未在 Hadoop 中 InputSplit 的 getLocations() 返回的主机名上执行

我已经扩展了InputSplitHadoop 的类来计算我的自定义输入拆分,但是当我返回一个特定的 HostIP(即数据节点 IP)作为覆盖的getLocations()的字符串时,它的 Map Task 并没有在该 HostIP 上执行,而是它正在执行在其他一些上。不在该特定 HostIP 上执行会出现什么问题?

0 投票
2 回答
1494 浏览

hadoop - Number of input splits is equals to number of mappers?

I am processing the the one file with the map reduce that file size is 1Gb and my default block size in HDFS is 64 MB so for this example how many input splits is there and how many mappers is there ?

0 投票
3 回答
1079 浏览

hadoop - 用于压缩块的 Hadoop 输入拆分

如果我有一个可拆分的 1GB 压缩文件,并且默认情况下块大小和输入拆分大小为 128MB,则创建了 8 个块和 8 个输入拆分。当 map reduce 读取压缩块时,它是未压缩的,解压缩后块的大小变为 200MB。但是这个分配的输入分割是 128MB,那么剩下的 82MB 是如何处理的。

  1. 它是否由下一个输入拆分处理?
  2. 相同的输入拆分大小是否增加?
0 投票
1 回答
127 浏览

hadoop - Hadoop 中的输入拆分

如果输入文件大小为 200MB,则将有 4 个块/输入拆分,但每个数据节点上都会运行一个映射器。如果所有 4 个输入拆分都在同一个数据节点中,那么只会执行一个 map 任务?
或者地图任务的数量如何取决于输入拆分?
Task Tracker 是否会在集群中的所有数据节点上运行,而 Job Tracker 是否会在集群中的一个数据节点上运行?

0 投票
1 回答
158 浏览

hadoop - hadoop - 如果文件只有一条记录并且文件大小大于块大小,输入拆分形式如何?

解释问题的例子 -

我有一个大小为 500MB 的文件(input.csv)

该文件仅包含一行(记录)

那么文件将如何存储在 HDFS 块中以及如何计算输入拆分?

0 投票
2 回答
423 浏览

hadoop - hadoop中的输入拆分和阻塞

我的文件大小为 100 MB,默认块大小为 64 MB。如果我不设置输入拆分大小,则默认拆分大小将是块大小。现在拆分大小也是 64 MB。

当我将这个 100 MB 的文件加载到 HDFS 中时,这个 100 MB 的文件将分成 2 个块。即 64 MB 和 36 MB。例如下面是一首 100 MB 大小的诗歌歌词。如果我将此数据加载到 HDFS 中,例如从第 1 行到第 16 行的一半,正好是 64 MB 作为一个拆分/块(直到“它成功了”)和第 16 行的剩余一半(孩子们笑着玩耍)到文件末尾作为第二个块 (36 MB)。将有两个映射器工作。

我的问题是第一个映射器将如何考虑第 16 行(即块 1 的第 16 行),因为该块只有一半的行,或者第二个映射器将如何考虑块 2 的第一行,因为它也有一半线。

或者在拆分 64 MB 时,而不是拆分单行,hadoop 会考虑整行 16?

0 投票
1 回答
1043 浏览

add - Python Input Split with a limit range

I use Spyder Python 3.5 to write this code and try to run it. However, this code does not work.

It reveals that " (1) var1,var2 = input("Enter two digits a and b (0-9):").split(''); (2) TypeError: 'str' object is not callable"

0 投票
1 回答
46 浏览

hadoop - 像 Hadoop 中的 FileSplit 这样的拆分会改变块吗?

第一个问题:我想知道拆分是否以任何方式更改了块(即更改大小、将块移动到另一个位置、创建新块……)。

第二个问题:我认为拆分不会更改块,但它指定每个 MapTask 应该存在并在集群上运行以获取数据的局部性或机架感知,因为 DataNode 已经在运行并且正在拥有块,所以我认为拆分会告诉 Hadoop 在包含数据的节点旁边运行 MapTask。注意:在 InputSplit 中有我认为用于此目的的位置/主机。如果我错了请纠正我

第三个问题:最初在实际执行任务之前,blocks会移动到MapTask所在的位置还是MapTask会移动到blocks所在的位置(即DataNode的位置)?

0 投票
0 回答
24 浏览

python - 在 Python 3.X 中,如何编写仅当 input.split() 不包含在 for 循环中检查的项目时才发生的打印?

我正在使用 python 开发基于文本的冒险游戏。现在我有它,所以主游戏循环总是打印“你想做什么?” 并将输入拆分为单个单词。

我有一个名为检查(也检查、观察、查看等)的操作,如果输入中有该单词,它将检查我在字典中描述的所有项目,如果找到,则打印项目的描述。

我怎样才能做到这一点,如果用户输入的单词都不在字典中,它会打印特定的消息?

简而言之:我想要它,以便如果检查了单词并且输入不包含字典或对象中的任何内容,它会打印出像“你到底想检查什么?”这样的行。

有没有办法做到这一点?

0 投票
0 回答
40 浏览

hadoop - 输入拆分大小是如何以及在哪里提到或传递给 MR 程序的?

我了解输入拆分大小和块大小的含义。但我想了解的是 MR 程序在哪里以及如何提到输入拆分大小......它是在使用(Hadoop jar MRPROGRAM ...等)启动MR作业时传递参数还是在MR Job 配置程序还是在其他地方提到过。请解释。