问题标签 [filesplitting]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
3659 浏览

linux - 在 Linux/bash 下拆分文件及其行

我有一个相当大的文件(1.5 亿行 10 个字符)。我需要将它拆分为 200 万行的 150 个文件,每个输出行或者是源行的前 5 个字符或最后 5 个字符。我可以在 Perl 中相当快地做到这一点,但我想知道是否有使用 bash 的简单解决方案。有任何想法吗?

0 投票
2 回答
452 浏览

mercurial - Mercurial 如何处理拆分的文件?

mercurial 如何处理拆分的文件?如果我创建一个分支并拆分一个文件会发生什么。我可以轻松地从另一个修改原始未拆分文件的分支中提取更改吗?

0 投票
4 回答
7900 浏览

shell - 如何在 shell 中以可移植的方式在第一个空行上拆分文件(例如使用 sed)?

我想将包含 HTTP 响应的文件拆分为两个文件:一个仅包含 HTTP 标头,另一个包含消息正文。为此,我需要使用shell script\r在第一个空行(或对于 UNIX 工具的第一行仅包含 CR = ' ' 字符)将一个文件拆分为两个。

如何以可移植的方式做到这一点(例如使用sed,但没有 GNU 扩展)?可以假设空行不会是文件中的第一行。空行可以到达任何一个文件,没有一个或两个文件;对我来说没关系。

0 投票
2 回答
874 浏览

wav - WAV 文件拆分器实用程序

0 投票
2 回答
2258 浏览

xml - 一种使用 XSL 将巨大的 XML 文件拆分为更小的 xml 文件的方法

我得到一个包含电视广播列表的巨大 XML 文件。而且我必须将其拆分为仅包含一天所有广播的小文件。我设法做到了,但是xml标头和一个节点多次出现有两个问题。

XML的结构如下:

我的 XSL 看起来像这样:

我的输出 XML 是这样的:

PRG_20090512.xml:

我可以在输出声明中输入 omit-xml-declaration="yes" ,但我没有任何 xml 标头。我试图检查标签是否已经在输出中,但未能在输出中选择节点......

这是我尝试过的:

感谢您的帮助,因为我不知道如何处理。;( 雪人

0 投票
1 回答
129011 浏览

linux - 如何在行号处拆分文件

我想从特定的行号拆分一个 400k 行长的日志文件。

对于这个问题,让我们将其设为任意数字 300k。

是否有允许我执行此操作的 linux 命令(在脚本中)?

我知道split让我按大小或行号将文件分成相等的部分,但这不是我想要的。我想要一个文件中的前 300k 和第二个文件中的最后 100k。

任何帮助,将不胜感激。谢谢!

再三考虑,这将更适合超级用户或服务器故障站点。

0 投票
3 回答
165 浏览

hadoop - 如何将一组文本作为一个整体映射到一个节点?

假设我有一个包含以下数据的纯文本文件:

...等等...

我想要的是:计算每个数据集中有多少内容。例如结果应该是

我是hadoop的初学者,我想知道是否有办法将一块数据作为一个整体映射到一个节点。例如,将所有 DataSetOne 设置为节点 1,将所有 DataSetTwo 设置为节点 2。

有谁可以给​​我一个想法如何存档?

0 投票
2 回答
367 浏览

php - 使用 .php 的文件分割器

我正在设计一个用户上传文件的网站,但免费的虚拟主机只为我们提供每个文件限制 3mb,所以我可以使用 .php 设计一个文件分割器,它将文件(> 3mb)分割成 3mb 块,然后在下载时;它将文件重新组装成 1 件

那可能吗?是在 .php 的范围内吗

0 投票
2 回答
1800 浏览

xslt - 按记录数/阈值拆分 XML 文件并复制标头 - XSLT 1.0

我有以下 XML 结构

我需要根据<R>元素的数量拆分文件。如果元素超过 3个,则<R>需要生成第二个输出文件。这两个文件还需要标题信息。

我想出了这个 XSLT:

但是生成的两个输出文件只包含“Data2”和“Data5”。您能帮我弄清楚为什么缺少其他 3 个数据元素吗?以及如何添加标题数据?

对于标题,我想出了这个 XSLT:

当我将它应用于提到的 XML 时,它会起作用。但我无法将这 2 个 XSLT 组合起来——输出只是被弄乱了。

0 投票
3 回答
9078 浏览

python - 在流式hadoop程序中获取输入文件名

如果在使用 Java 编写程序时使用 FileSplit 映射器类中的输入文件,我能够找到名称。

当我用 Python 编写程序(使用流式传输?)时,是否有相应的方法可以做到这一点?

我在 apache 上的 hadoop 流式文档中发现了以下内容:

请参阅配置的参数。在流式作业执行期间,“mapred”参数的名称被转换。点 (.) 变为下划线 (_)。例如,mapred.job.id 变为 mapred_job_id,mapred.jar 变为 mapred_jar。在您的代码中,使用带下划线的参数名称。

但我仍然无法理解如何在我的映射器中使用它。

非常感谢任何帮助。

谢谢