问题标签 [filesplitting]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
167 浏览

linux - 使用 awk 拆分数据但缺少列名

我设法得到了这个命令,但为什么我的列名被排除在外?

这是我的命令

在我的原始文件中,test_01012020.csv包含列:名称、类别、年龄等,但是在我拆分文件之后,Assignment_"$1"_"DATE".csv"我只得到了值,例如:FARAH, CLASS A, 24等等,但在新文件中不包括列名。我需要列名作为原始文件,而不是拆分文件中的标题。有人可以帮我吗?

0 投票
1 回答
26 浏览

hadoop - 在 Hadoop 的 Java 中创建 CombineFileSplit?

CombineFileSplit 有一个构造函数:

位置数组是否必须与文件数组的大小相同,因为文件可以驻留在许多位置/节点中?

0 投票
1 回答
43 浏览

java - 为什么我无法在我的文件拆分程序 (Java) 中找到正确的解决方案?

关于代码: 基本上我正在编写一个程序,它将给定的巨大文本文件拆分为较小的“n”个大小为 10 MB 的文件。

代码工作流程:

  1. 打开源文件,查找文件中存在的行数。
  2. 计算每行的近似大小(字节)和每 10mb 文件的行数。
  3. 查找创建和创建它们所需的文件数。
  4. 然后将源文件中的粘贴复制到拆分文件中。

问题: 程序正确拆分为 n 个文件,但所有文件都有相同的数据。这是因为在我的程序完成第一个拆分文件后,对于第二个文件,阅读器会自动返回到原始源文件的第一行。因此,所有拆分文件都包含与第一个拆分文件相同的数据。

代码:

输出: 逻辑有效,创建了 n 个较小的文件,但所有拆分文件都包含第一个拆分文件的数据。

感谢您阅读到现在。我希望有人能给我一个解决方案。

0 投票
1 回答
715 浏览

java - 拆分大型 XML 文件 Java (StAX)

我正在使用来自 GitHub 的代码https://github.com/koen-serneels/blog/tree/master/BigXmlTest/src/main/java/be/error/bigxmltest来拆分大型 XML 文件(6GB)。我开始使用提供的基本 XML 文件来理解程序。程序为每个拆分的文件输出标题。我现在也正在尝试为每个文件添加页脚元素并且遇到一些困难,任何关于如何进行此操作的建议或建议都会很棒。

我已将页脚添加到架构中,并编写了代码以在“openOutputFileAndWriteHeader()”方法中添加页脚。但是,这会在内容元素中添加页脚。如下图所示:

输出:

0 投票
1 回答
624 浏览

hadoop - 如何从 Hadoop 中的序列文件创建拆分?

在 Hadoop 中,我有一个 3GB 大小的序列文件。我想并行处理它。因此,我将创建 8 个 maptasks 和 8 个 FileSplits。

FileSplit 类的构造函数需要:

例如,第一次拆分可以从 0 开始,长度为 3GB/8,下一次从 3GB/8 开始,长度为 3GB/8,依此类推。

现在 SequenceFile.Reader 有一个相同的构造函数:

对于第一次拆分(从 0 开始,长度为 3Gb/8),序列文件能够读取它,因为它包含文件头、压缩类型以及有关键和值类的信息。

但是,对于其他拆分,SequenceFile.Reader 无法读取拆分,因为我认为文件的该部分不包含序列文件的标头(因为文件拆分不是从 0 开始),因此当我尝试使用序列文件时,它会抛出 NullPointerException。

那么有没有办法从序列文件中分割文件?

0 投票
1 回答
258 浏览

java - 使用 Java 根据大小拆分 XML

我正在尝试使用以下方法拆分 XML 文件,它创建了第一个拆分文件没有问题,但是当我使用 output.clear(); 清除已经写入的 XMLEvents 数组会引发错误。

错误:线程“主”javax.xml.stream.XMLStreamException 中的异常:找不到要写入的元素:java.lang.ArrayIndexOutOfBoundsException:-1

我试图调查这个问题但没有成功,任何关于导致错误的原因或如何克服它的建议都非常感谢!

0 投票
0 回答
144 浏览

python - Python 3.6 递归写入多个文本文件

我现有的工作代码是:

有 4,049 个 xml 源文件,这会产生超过 2GB 的输出,其中的行数比我可以轻松导入其他包进行操作的要多得多。

我手动分批处理了 100 个文件,但这仍然导致一些输出文件超过 1,048,576 行

我想让打印循环在每 1,048,576 行(或更少,能够指定将是理想的)之后基于设置的文件名递归地输出文件。

例如

  • bnc-001.txt 1,048,576 行
  • bnc-002.txt 1,048,576 行
  • ...
  • bnc-050.txt 56,789 行(摘自空中)

不知道如何开始这个。

0 投票
3 回答
69 浏览

python - 在 python 2.7 中将数据拆分为交替组

上面显示了 .txt 文件。

我的目标是创建 4 个尽可能均匀分布的组,包含所有城市,这意味着每个组都有“纽约”、“孟买”、“巴黎”。

由于有 25 个数据,3 组将有 6 行,而 1 组将有 7 行。

我现在想到的是,由于数据已经按他们的城市排序,我可以逐行读取文本文件,然后对于每一行,我将其附加到 4 个组(G1-G4)中图案。意思是说,第一行会将其附加到 G1,然后将第二行附加到 G2,第三行到 G3,第四行到 G4,第五行将附加到 G1,第六行附加到 G2,依此类推。这可以确保所有组都拥有所有 3 个城市。

可以用这种方式编码吗?

预期结果:

G1:第 1 行/第 5 行,第 9 行,

G2:第 2 行、第 6 行、第 10 行、

G3:第 3 行、第 7 行、第 11 行、

G4:第 4 行、第 8 行、第 12 行,依此类推。

0 投票
2 回答
61 浏览

vba - VBA:根据数据中的类别拆分excel文件

0 投票
1 回答
294 浏览

python - 使用 curl 分批下载大文件的 Python 脚本

我的研究所不允许下载超过 300MB 的文件,所以我想出了这个分段下载文件的技巧!现在我想简化任务并在 python 中制作一个脚本!我正在使用 os.system() 来执行命令!

我的计划是使用这个 curl --range 300000000*X-(300000000*(X+1)-1) [url] -o filename.partX # X 是零件号

但我不知道如何终止循环!我怎么知道文件的所有可用部分都已下载!谁能帮我解决这个问题?