问题标签 [filesplitting]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
linux - 在 Linux/bash 下拆分文件及其行
我有一个相当大的文件(1.5 亿行 10 个字符)。我需要将它拆分为 200 万行的 150 个文件,每个输出行或者是源行的前 5 个字符或最后 5 个字符。我可以在 Perl 中相当快地做到这一点,但我想知道是否有使用 bash 的简单解决方案。有任何想法吗?
mercurial - Mercurial 如何处理拆分的文件?
mercurial 如何处理拆分的文件?如果我创建一个分支并拆分一个文件会发生什么。我可以轻松地从另一个修改原始未拆分文件的分支中提取更改吗?
shell - 如何在 shell 中以可移植的方式在第一个空行上拆分文件(例如使用 sed)?
我想将包含 HTTP 响应的文件拆分为两个文件:一个仅包含 HTTP 标头,另一个包含消息正文。为此,我需要使用shell script\r
在第一个空行(或对于 UNIX 工具的第一行仅包含 CR = ' ' 字符)将一个文件拆分为两个。
如何以可移植的方式做到这一点(例如使用sed,但没有 GNU 扩展)?可以假设空行不会是文件中的第一行。空行可以到达任何一个文件,没有一个或两个文件;对我来说没关系。
xml - 一种使用 XSL 将巨大的 XML 文件拆分为更小的 xml 文件的方法
我得到一个包含电视广播列表的巨大 XML 文件。而且我必须将其拆分为仅包含一天所有广播的小文件。我设法做到了,但是xml标头和一个节点多次出现有两个问题。
XML的结构如下:
我的 XSL 看起来像这样:
我的输出 XML 是这样的:
PRG_20090512.xml:
我可以在输出声明中输入 omit-xml-declaration="yes" ,但我没有任何 xml 标头。我试图检查标签是否已经在输出中,但未能在输出中选择节点......
这是我尝试过的:
感谢您的帮助,因为我不知道如何处理。;( 雪人
linux - 如何在行号处拆分文件
我想从特定的行号拆分一个 400k 行长的日志文件。
对于这个问题,让我们将其设为任意数字 300k。
是否有允许我执行此操作的 linux 命令(在脚本中)?
我知道split
让我按大小或行号将文件分成相等的部分,但这不是我想要的。我想要一个文件中的前 300k 和第二个文件中的最后 100k。
任何帮助,将不胜感激。谢谢!
再三考虑,这将更适合超级用户或服务器故障站点。
hadoop - 如何将一组文本作为一个整体映射到一个节点?
假设我有一个包含以下数据的纯文本文件:
...等等...
我想要的是:计算每个数据集中有多少内容。例如结果应该是
我是hadoop的初学者,我想知道是否有办法将一块数据作为一个整体映射到一个节点。例如,将所有 DataSetOne 设置为节点 1,将所有 DataSetTwo 设置为节点 2。
有谁可以给我一个想法如何存档?
php - 使用 .php 的文件分割器
我正在设计一个用户上传文件的网站,但免费的虚拟主机只为我们提供每个文件限制 3mb,所以我可以使用 .php 设计一个文件分割器,它将文件(> 3mb)分割成 3mb 块,然后在下载时;它将文件重新组装成 1 件
那可能吗?是在 .php 的范围内吗
xslt - 按记录数/阈值拆分 XML 文件并复制标头 - XSLT 1.0
我有以下 XML 结构
我需要根据<R>
元素的数量拆分文件。如果元素超过 3个,则<R>
需要生成第二个输出文件。这两个文件还需要标题信息。
我想出了这个 XSLT:
但是生成的两个输出文件只包含“Data2”和“Data5”。您能帮我弄清楚为什么缺少其他 3 个数据元素吗?以及如何添加标题数据?
对于标题,我想出了这个 XSLT:
当我将它应用于提到的 XML 时,它会起作用。但我无法将这 2 个 XSLT 组合起来——输出只是被弄乱了。
python - 在流式hadoop程序中获取输入文件名
如果在使用 Java 编写程序时使用 FileSplit 映射器类中的输入文件,我能够找到名称。
当我用 Python 编写程序(使用流式传输?)时,是否有相应的方法可以做到这一点?
我在 apache 上的 hadoop 流式文档中发现了以下内容:
请参阅配置的参数。在流式作业执行期间,“mapred”参数的名称被转换。点 (.) 变为下划线 (_)。例如,mapred.job.id 变为 mapred_job_id,mapred.jar 变为 mapred_jar。在您的代码中,使用带下划线的参数名称。
但我仍然无法理解如何在我的映射器中使用它。
非常感谢任何帮助。
谢谢