问题标签 [filesplitting]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 使用 Java 对 BIG 文件进行 XML 拆分
我正在尝试创建一个将拆分所选 XML 文件的 java 程序。
XML 文件数据示例:
依此类推,我有这个 250mb 的 XML 文件,它总是很痛苦地打开它外部程序并手动拆分它以便能够与其他程序一起读取(并非所有笔记本电脑/台式机都可以打开这么大的文件)。所以我决定创建一个具有此功能的 Java 程序: - 选择 XML 文件(已经完成) - 根据标签数量分割文件,例如。(当前文件有 100k 个标签我会询问程序用户他是如何员工的/她想要拆分的文件。例如(每个文件 10k)-拆分文件(已经完成)
我只是想就如何完成第二项任务寻求帮助,已经在 3-4 天内检查我怎么可能做到这一点,或者它是否可行(在我看来当然是这样)。
任何回应将不胜感激。
干杯,格林。
python - PySpark:在不知道单行键的情况下读取文件
如果您正在使用 Apache Spark(我正在使用 PySpark)读取文件,那么您会期望每一行都有一个键。比如像这样
然后通过键减少到
这是最佳实践,因为在从 HDFS 读取时,您永远不知道文件在哪一行被拆分,并且在每一行中都有键有助于使用 map-reduce。但我的输入文件看起来不同:
问题是 HDFS 可能会在随机位置拆分文件,因此当 Apache Hadoop Spark 集群的第二个节点读取文件的第二部分时,它会以{timestamp4, value4}开头,而不知道它属于 key1。
有没有办法解决这个问题?在进入集群之前,我想避免在本地机器上将输入文件转换为另一种格式。
也许使用自定义文件拆分器?我正在寻找 Python 2.7 (Pyspark) 中的解决方案。
感谢您的任何提示!
xml - Scala中的xml解析和拆分
我想借助节点名称从邮件 xml 中拆分子 xml 。有人可以帮忙吗?
示例.xml
我想使用 Scala 拆分包含 B 的子 xml。
phpstorm - PhpStorm 虚拟文件拆分
我找不到更合适的了。我正在使用 PhpStorm 创建 Web 内容(php、html、css、js ..),并且我面临着长文件的问题(甚至没有那么长的几百行足以丢失)在那里很难找到东西并删除不必要的内容。
我想知道是否有一个功能、插件或外部文件管理器,它可以从磁盘上的一个文件创建不同的文件。
例如:当我们有一个.css
文件时,它的内容肯定是处理 html 的不同功能/部分,但它们都在同一个 html 页面上。因此,为每个部分创建不同的.css
文件是一个坏主意,但最好为每个部分/功能拥有不同的虚拟文件,以便我们可以分别编码和调试我们的代码;但它们被保存到同一个文件中。
让我们说:
common_header.css
: 处理标题common_menu.css
: 处理菜单(我们页面上有一些菜单)common_footer.css
: 处理页面末尾的内容- ... 等等
所以现在在编码时,我们在文件管理器上看到了不同的文件(最好是原始文件的子树):
....other 文件 // 这里的点应该是 + 因为子树隐藏
common.css // 这里的点应该是 - 因为显示了子树
- common_header.css
- common_menu.css
- common_footer.css
- ...
....其他文件
但是,当它们在磁盘上时,它们都在同一个文件common.css
中,该文件也作为一个文件加载到我们的浏览器中。
pdf - 使用命令将批量 pdf 拆分为更小的 pdf?
我有一个 470 页的 pdf,我想使用 Linux 中的命令将其拆分为更小的 pdf。我有数百个这样的 pdf,我想自动化这个过程。有没有办法做到这一点。
c# - 处理巨大的 utf8 文件并拆分为多个文件
我正在开发一个导入程序,用于在 C# 中导入大文本 utf8(字符字节不同)文件。如果我将所有 20GB 文件加载到 RAM,则此解决方案不合适且可能。最好将文件拆分为多个较小的文件进行处理。现在,我的问题是拆分文件敌人处理。我的解决方案是逐行读取文件并在行号是我合适的数字时拆分它们。但我认为,逐行读取文件进行拆分并不是快速的解决方案。分裂时间长。是否有一种算法可以将大型 utf8 文件拆分为多个文件,而无需逐行读取并且速度更快。
java - Android file splitter and joining is not work for apk file
I used this (https://github.com/huntergdavis/Easy_File_Split_And_Join) program to split and joining the files. Everything works perfect expect apk files. The program could successfully split and join video files and so on but fails to do the same for apk files. Kindly spot out the error in program. Also request to provide a correct code to split and join apk files too. Thanks.
audio - 拆分音频文件,但仅在暂停中
我一直在玩 sox 并使用trim
命令将整个音频分成 n 部分(每个部分的长度固定)应该相当简单。
但是,当我打算拆分口语录音时,可能会发生简单的拆分会在单词中间拆分。
有没有办法防止这种情况并确保部分包含“整个单词”?
c# - .net 中多个特定大小的 csv 文件的大型数据表
我有一个包含数百万条记录的大型数据表。我需要将其导出到多个特定大小的 CSV 文件中。例如,我选择文件大小为 5MB,当我说导出时,数据表将导出为 4 个 CSV 文件,每个文件大小为 5MB,最后一个文件大小可能会因剩余记录而异。我在这里经历了许多解决方案,还查看了 csvhelper 库,但是所有处理大文件的处理都被拆分为多个 CSV,但不是内存数据表根据指定的文件大小拆分为多个 CSV 文件。我想在 C# 中执行此操作。在这个方向上的任何帮助都会很棒。
谢谢杰