问题标签 [filesplitting]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

84 问题

0 投票

3 回答

3659 浏览

linux - 在 Linux/bash 下拆分文件及其行

我有一个相当大的文件（1.5 亿行 10 个字符）。我需要将它拆分为 200 万行的 150 个文件，每个输出行或者是源行的前 5 个字符或最后 5 个字符。我可以在 Perl 中相当快地做到这一点，但我想知道是否有使用 bash 的简单解决方案。有任何想法吗？

Sklivvz

2008-09-15T15:19:29.617

0 投票

2 回答

452 浏览

mercurial - Mercurial 如何处理拆分的文件？

mercurial 如何处理拆分的文件？如果我创建一个分支并拆分一个文件会发生什么。我可以轻松地从另一个修改原始未拆分文件的分支中提取更改吗？

mercurial merge filesplitting

2009-10-22T07:21:49.383

0 投票

4 回答

7900 浏览

shell - 如何在 shell 中以可移植的方式在第一个空行上拆分文件（例如使用 sed）？

我想将包含 HTTP 响应的文件拆分为两个文件：一个仅包含 HTTP 标头，另一个包含消息正文。为此，我需要使用shell script\r在第一个空行（或对于 UNIX 工具的第一行仅包含 CR = ' ' 字符）将一个文件拆分为两个。

如何以可移植的方式做到这一点（例如使用sed，但没有 GNU 扩展）？可以假设空行不会是文件中的第一行。空行可以到达任何一个文件，没有一个或两个文件；对我来说没关系。

shell sed portability text-manipulation filesplitting

2009-10-29T15:27:04.963

0 投票

2 回答

874 浏览

wav - WAV 文件拆分器实用程序

wav utility filesplitting

2009-12-13T13:52:35.693

0 投票

2 回答

2258 浏览

xml - 一种使用 XSL 将巨大的 XML 文件拆分为更小的 xml 文件的方法

我得到一个包含电视广播列表的巨大 XML 文件。而且我必须将其拆分为仅包含一天所有广播的小文件。我设法做到了，但是xml标头和一个节点多次出现有两个问题。

XML的结构如下：

我的 XSL 看起来像这样：

我的输出 XML 是这样的：

PRG_20090512.xml：

我可以在输出声明中输入 omit-xml-declaration="yes" ，但我没有任何 xml 标头。我试图检查标签是否已经在输出中，但未能在输出中选择节点......

这是我尝试过的：

感谢您的帮助，因为我不知道如何处理。;( 雪人

xml xslt xalan filesplitting

user291348

2010-03-11T10:36:46.423

0 投票

1 回答

129011 浏览

linux - 如何在行号处拆分文件

我想从特定的行号拆分一个 400k 行长的日志文件。

对于这个问题，让我们将其设为任意数字 300k。

是否有允许我执行此操作的 linux 命令（在脚本中）？

我知道split让我按大小或行号将文件分成相等的部分，但这不是我想要的。我想要一个文件中的前 300k 和第二个文件中的最后 100k。

任何帮助，将不胜感激。谢谢！

再三考虑，这将更适合超级用户或服务器故障站点。

linux shell split filesplitting

2010-06-18T02:55:29.873

0 投票

3 回答

165 浏览

hadoop - 如何将一组文本作为一个整体映射到一个节点？

假设我有一个包含以下数据的纯文本文件：

...等等...

我想要的是：计算每个数据集中有多少内容。例如结果应该是

我是hadoop的初学者，我想知道是否有办法将一块数据作为一个整体映射到一个节点。例如，将所有 DataSetOne 设置为节点 1，将所有 DataSetTwo 设置为节点 2。

有谁可以给我一个想法如何存档？

hadoop filesplitting

2011-01-13T19:47:54.003

0 投票

2 回答

367 浏览

php - 使用 .php 的文件分割器

我正在设计一个用户上传文件的网站，但免费的虚拟主机只为我们提供每个文件限制 3mb，所以我可以使用 .php 设计一个文件分割器，它将文件（> 3mb）分割成 3mb 块，然后在下载时；它将文件重新组装成 1 件

那可能吗？是在 .php 的范围内吗

php filesplitting

2011-02-07T15:16:08.350

0 投票

2 回答

1800 浏览

xslt - 按记录数/阈值拆分 XML 文件并复制标头 - XSLT 1.0

我有以下 XML 结构

我需要根据<R>元素的数量拆分文件。如果元素超过 3个，则<R>需要生成第二个输出文件。这两个文件还需要标题信息。

我想出了这个 XSLT：

但是生成的两个输出文件只包含“Data2”和“Data5”。您能帮我弄清楚为什么缺少其他 3 个数据元素吗？以及如何添加标题数据？

对于标题，我想出了这个 XSLT：

当我将它应用于提到的 XML 时，它会起作用。但我无法将这 2 个 XSLT 组合起来——输出只是被弄乱了。

xslt filesplitting

2011-05-03T13:27:55.873

0 投票

3 回答

9078 浏览

python - 在流式hadoop程序中获取输入文件名

如果在使用 Java 编写程序时使用 FileSplit 映射器类中的输入文件，我能够找到名称。

当我用 Python 编写程序（使用流式传输？）时，是否有相应的方法可以做到这一点？

我在 apache 上的 hadoop 流式文档中发现了以下内容：

请参阅配置的参数。在流式作业执行期间，“mapred”参数的名称被转换。点 (.) 变为下划线 (_)。例如，mapred.job.id 变为 mapred_job_id，mapred.jar 变为 mapred_jar。在您的代码中，使用带下划线的参数名称。

但我仍然无法理解如何在我的映射器中使用它。

非常感谢任何帮助。

谢谢

python input streaming hadoop filesplitting

2011-09-16T19:59:17.773

1 2 3 4 5 6 7 8 9 10

问题标签 [filesplitting]

Reference