问题标签 [filesplitting]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

84 问题

0 投票

1 回答

167 浏览

linux - 使用 awk 拆分数据但缺少列名

我设法得到了这个命令，但为什么我的列名被排除在外？

这是我的命令

在我的原始文件中，test_01012020.csv包含列：名称、类别、年龄等，但是在我拆分文件之后，Assignment_"$1"_"DATE".csv"我只得到了值，例如：FARAH, CLASS A, 24等等，但在新文件中不包括列名。我需要列名作为原始文件，而不是拆分文件中的标题。有人可以帮我吗？

2017-02-21T00:46:22.880

0 投票

1 回答

26 浏览

hadoop - 在 Hadoop 的 Java 中创建 CombineFileSplit？

CombineFileSplit 有一个构造函数：

位置数组是否必须与文件数组的大小相同，因为文件可以驻留在许多位置/节点中？

hadoop filesplitting

2017-03-26T09:19:15.557

0 投票

1 回答

43 浏览

java - 为什么我无法在我的文件拆分程序 (Java) 中找到正确的解决方案？

关于代码： 基本上我正在编写一个程序，它将给定的巨大文本文件拆分为较小的“n”个大小为 10 MB 的文件。

代码工作流程：

打开源文件，查找文件中存在的行数。
计算每行的近似大小（字节）和每 10mb 文件的行数。
查找创建和创建它们所需的文件数。
然后将源文件中的粘贴复制到拆分文件中。

问题： 程序正确拆分为 n 个文件，但所有文件都有相同的数据。这是因为在我的程序完成第一个拆分文件后，对于第二个文件，阅读器会自动返回到原始源文件的第一行。因此，所有拆分文件都包含与第一个拆分文件相同的数据。

代码：

输出： 逻辑有效，创建了 n 个较小的文件，但所有拆分文件都包含第一个拆分文件的数据。

感谢您阅读到现在。我希望有人能给我一个解决方案。

java file filesplitting

2017-03-28T05:51:51.380

0 投票

1 回答

715 浏览

java - 拆分大型 XML 文件 Java (StAX)

我正在使用来自 GitHub 的代码https://github.com/koen-serneels/blog/tree/master/BigXmlTest/src/main/java/be/error/bigxmltest来拆分大型 XML 文件（6GB）。我开始使用提供的基本 XML 文件来理解程序。程序为每个拆分的文件输出标题。我现在也正在尝试为每个文件添加页脚元素并且遇到一些困难，任何关于如何进行此操作的建议或建议都会很棒。

我已将页脚添加到架构中，并编写了代码以在“openOutputFileAndWriteHeader()”方法中添加页脚。但是，这会在内容元素中添加页脚。如下图所示：

输出：

java xml stax filesplitting

2017-03-30T10:58:22.480

0 投票

1 回答

624 浏览

hadoop - 如何从 Hadoop 中的序列文件创建拆分？

在 Hadoop 中，我有一个 3GB 大小的序列文件。我想并行处理它。因此，我将创建 8 个 maptasks 和 8 个 FileSplits。

FileSplit 类的构造函数需要：

例如，第一次拆分可以从 0 开始，长度为 3GB/8，下一次从 3GB/8 开始，长度为 3GB/8，依此类推。

现在 SequenceFile.Reader 有一个相同的构造函数：

对于第一次拆分（从 0 开始，长度为 3Gb/8），序列文件能够读取它，因为它包含文件头、压缩类型以及有关键和值类的信息。

但是，对于其他拆分，SequenceFile.Reader 无法读取拆分，因为我认为文件的该部分不包含序列文件的标头（因为文件拆分不是从 0 开始），因此当我尝试使用序列文件时，它会抛出 NullPointerException。

那么有没有办法从序列文件中分割文件？

hadoop hadoop2 sequencefile filesplitting recordreader

2017-04-12T12:49:39.383

0 投票

1 回答

258 浏览

java - 使用 Java 根据大小拆分 XML

我正在尝试使用以下方法拆分 XML 文件，它创建了第一个拆分文件没有问题，但是当我使用 output.clear(); 清除已经写入的 XMLEvents 数组会引发错误。

错误：线程“主”javax.xml.stream.XMLStreamException 中的异常：找不到要写入的元素：java.lang.ArrayIndexOutOfBoundsException：-1

我试图调查这个问题但没有成功，任何关于导致错误的原因或如何克服它的建议都非常感谢！

java xml filesplitting

2017-04-20T08:49:25.000

0 投票

0 回答

144 浏览

python - Python 3.6 递归写入多个文本文件

我现有的工作代码是：

有 4,049 个 xml 源文件，这会产生超过 2GB 的输出，其中的行数比我可以轻松导入其他包进行操作的要多得多。

我手动分批处理了 100 个文件，但这仍然导致一些输出文件超过 1,048,576 行

我想让打印循环在每 1,048,576 行（或更少，能够指定将是理想的）之后基于设置的文件名递归地输出文件。

例如

bnc-001.txt 1,048,576 行
bnc-002.txt 1,048,576 行
...
bnc-050.txt 56,789 行（摘自空中）

不知道如何开始这个。

python recursion filesplitting

2018-04-22T07:14:25.167

0 投票

3 回答

69 浏览

python - 在 python 2.7 中将数据拆分为交替组

上面显示了 .txt 文件。

我的目标是创建 4 个尽可能均匀分布的组，包含所有城市，这意味着每个组都有“纽约”、“孟买”、“巴黎”。

由于有 25 个数据，3 组将有 6 行，而 1 组将有 7 行。

我现在想到的是，由于数据已经按他们的城市排序，我可以逐行读取文本文件，然后对于每一行，我将其附加到 4 个组（G1-G4）中图案。意思是说，第一行会将其附加到 G1，然后将第二行附加到 G2，第三行到 G3，第四行到 G4，第五行将附加到 G1，第六行附加到 G2，依此类推。这可以确保所有组都拥有所有 3 个城市。

可以用这种方式编码吗？

预期结果：

G1：第 1 行/第 5 行，第 9 行，

G2：第 2 行、第 6 行、第 10 行、

G3：第 3 行、第 7 行、第 11 行、

G4：第 4 行、第 8 行、第 12 行，依此类推。

python python-2.7 text grouping filesplitting

2018-08-08T02:51:20.730

0 投票

2 回答

61 浏览

vba - VBA：根据数据中的类别拆分excel文件

vba excel filesplitting

2018-09-13T14:44:59.153

0 投票

1 回答

294 浏览

python - 使用 curl 分批下载大文件的 Python 脚本

我的研究所不允许下载超过 300MB 的文件，所以我想出了这个分段下载文件的技巧！现在我想简化任务并在 python 中制作一个脚本！我正在使用 os.system() 来执行命令！

我的计划是使用这个 curl --range 300000000*X-(300000000*(X+1)-1) [url] -o filename.partX # X 是零件号

但我不知道如何终止循环！我怎么知道文件的所有可用部分都已下载！谁能帮我解决这个问题？

python curl terminal download filesplitting

2018-09-29T11:04:18.997

1 2 3 4 5 6 7 8 9 10

问题标签 [filesplitting]

Reference