问题标签 [filesplitting]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
40 浏览

r - 在 R studio 中拆分和写入 txt 文件时出错

我有这个大文件名 Objects_Population - AllCells.txt 大约 3GB,该文件有 25704373 行和 132 个变量。我想读取文件并根据一个变量拆分行,该变量是名为treatmentsum 的列。在本专栏中,我有不同条件(3S 或 UNS)下的实验性药物治疗,即用“_”链接的字符串。因此拆分会将所有具有相同处理的行放在一起。拆分文件后,我想写出拆分文件并使用处理和给出文件名。

我的代码如下:

因此,当我运行它时,文件读取正确,并且拆分工作正常并且处理按预期吐出,即我得到一个 1092 列表(显示在环境中),每个列表都包含具有相同处理的行。然而,代码每次写给我 233 个文件后都会死掉。我已经截图了错误,生成的所有文件都是3S,没有生成UNS文件(在右下角文件目录截图中可以看到)。有人可以帮我解决这个问题并让我知道错误的含义吗?在此处输入图像描述

0 投票
1 回答
272 浏览

xml - Powershell脚本将一个大文件拆分为多个文件,每个文件中有两对标签,文件名有命名约定

我正在编写一个 Powershell 脚本,将一个大文件拆分为多个文件,每个文件中有两对标签,这些小文件名必须遵循命名约定。

示例abcdef123.xml内容:

Powershell 脚本应将此大文件拆分为多个文件(文件中各有 2 对<child>& <child1>),并具有以下条件,并接受用户输入的文件名约定(所有文件名中的毫秒日期可以保持相同,但变量j应该更改):-

标准:-

  1. 为每个文件添加 header<parent>和 tail 。</parent>
  2. 文件名的格式应为UserinputstringMMDDYYYYHHMMSSMIL_n increment.xml(其中MIL是毫秒,n increment类似于001, 002, 003, ...)
  3. 没有两个文件应该具有相同的文件名。

示例文件拆分:-

文件 1;stack_10132020134434789_001.xml内容:

文件 2;stack_10132020134434791_002.xml内容:

我正在尝试的脚本:

0 投票
2 回答
125 浏览

bash - Bash 从 split 命令计算字母后缀(即整数到带有字母的基数 26)

split命令默认生成格式为“aa”“ab”...“by”“bz”...的文件后缀

但是在脚本中,我需要恢复这个后缀,从文件号开始作为一个整数(没有通配符)。

我写了以下代码,但也许这里的 bash 向导有更简洁的解决方案

或者,我可以bcobase变量一起使用,但在 j<26 的情况下它只输出一个数字。

0 投票
1 回答
128 浏览

pandas - 使用具有字符串第 n 个字符的条件的块拆分非常大的 csv

我正在尝试拆分一个非常大的 (22GB) CSV 文件,同时使用块和数据中给定列的第 n 个字符的条件。

我一直在无助地尝试将其组合起来: Python:根据第一列的第一个字符拆分 CSV 文件

有这样的东西,但我碰壁了。我有一个列不为空的条件,但我想根据给定列的第 n 个字符拆分我的文件。

反正有没有根据这样的条件创建更小的 csv 文件。任何帮助将不胜感激。

我的数据摘要如下所示:

源名称 date_naissance date_deces date_mariage 地方
dgfkf47 YYYYMMDD YYYYMMDD 等等 等等
fhfidk67 YYYYMMDD YYYYMMDD 等等 等等
kgodj45 YYYYMMDD 等等 等等
paoror76 YYYYMMDD 万维网 等等 等等
poldidj90 YYYYMMDD

我想要做的是创建一系列较小的文件,以便稍后通过根据列 ID 的第 7 个字符拆分数据来分析数据。我知道如何在 5X10 中做到这一点,因为它适合我的记忆,我只是使用 groupby,但我被困在一个非常大的范围内。as ask 似乎并没有让我迭代 groupby。

我现在的策略是对 Dask 进行所有清理操作,包括创建一个仅包含第 7 个字符的新列,然后输出可以在 pandas 中加载并按此列分组的较小文件。

目前我已经做到了这一点,但我很想知道是否有一种简单的方法可以做到这一点:

0 投票
1 回答
600 浏览

r - 如何使用 R 将大型 Excel 文件拆分为多个 Excel 文件

我正在寻找一种使用 R 将大型 Excel 文件拆分为多个较小 Excel 文件的方法。

具体来说,我想做三件事:

  1. 我有一个大型数据集,其中包含有关学生的信息(他们的学校、学校所在的地区、考试成绩 A、考试成绩 B),我想将这些信息分成单独的文件,每个学校一个文件包含所有就读该特定学校的学生。
  2. 我还希望所有单独的 Excel 文件都包含一个图像,该图像覆盖每个 Excel 文件的第一行和 A、B、C 和 D 列。数据集中所有学校的图像都是相同的。
  3. 最后,我还希望 Excel 文件在创建后最终位于我桌面上的各个文件夹中。文件夹名称将是学校所在的区域。一个地区大约有 3-5 所学校,因此该文件夹将包含 3-5 个 Excel 文件,每所学校 1 个。

我的数据结构如下:

区域 学校 学生卡 考试成绩A 考试成绩 B
一种 134 24 31
一种 221 26 33
122 22 21
126 25 25

我的数据涵盖了位于 5 个不同地区的大约 200 所学校。

任何有关如何执行此操作的指导将不胜感激!

0 投票
3 回答
1095 浏览

image - 您如何将大型 sdf 化合物文件转换为包含分子图像的单个文件?

一种新的基于图像的药物发现深度学习算法,需要将包含约 3000 种化合物的文件拆分为包含单个 2D 200 x 200 像素图像的 png 文件(.: SN00001400.png、SN00002805.png、SN00002441.png.. ......)。不需要任何构象,也不需要任何其他 3D 信息。

我可以发送一个包含 9 个复合图像、名称和微笑的初始 f1.sdf 示例,每个复合行一个。

在带有 Python 3.6、3.7 或 3.8、Jupyter 笔记本和/或 Python 提示符的 Anaconda3 中使用 rdkit 2017.09.1,在 Windows 8 专业版中的 2 个 e7 64 计算机中,我正在寻找一个简单的 Python 代码来分割图像,将它们转换为200 x 200 像素的 png 文件 (carios),通过其对应的复合 ID 命名它们并将它们保存到不同的目录 (.: images) 中,以供测试。

我尝试了许多不同的网络代码和组合,但尽管进行了密集的测试,但它们没有工作:-(。

遵循我最好的(?)代码试验。

rdkit 进口测试

使用独特微笑的最佳测试


在这条线上,我尝试了不同的微笑,但结果相似。

在 f1.sdf 中使用 9 种化合物的最佳尝试


..................................................... .....................

希望能得到一些帮助!感谢您的关注,真诚的胡里奥

juliocollm@gmail.com

0 投票
1 回答
55 浏览

python - 根据 ID 将嵌套的 JSON 文件拆分为两个 JSON?

我有嵌套的 JSON 文件,它作为 python 字典加载,movies_data如下所示:

它具有以下结构:

它有 3324 个键值对(即,最多 key review_3224)。我想根据特定的键列表将此文件拆分为两个 json 文件(train_movies.json, ):test_movies.json

对于 test_movies.json 我有以下结构:

不幸的是,这种结构存在一些问题,例如不一致的双引号" vs. '),评论之间没有逗号test_movies.json等......因此,通过读取json文件,我遇到了以下问题:

错误信息:

所需的输出应该具有与原始输出一样的正确 json 结构,movies_data以便 python 可以将其正确读取为 dict。

你能帮我纠正我的python代码吗?

先感谢您!

0 投票
0 回答
178 浏览

python - Python - 将文本文件拆分为具有字符长度限制的多个文件

我正在尝试将 PYTHON 中的大文本文件拆分为具有以下条件的多个子文件:

  1. 子文件的字符数不得超过 1024 个字符
  2. 完整的英文句子(即从句号到下一个句号)必须在同一个文件中结束。
  3. 还要确保如果一行不以 ie 1.txt 结尾,那么它必须在 2.txt 中,并且必须重新计算 2.txt 文件的长度(并且不超过 1024 个字符)。

我一直在尝试的代码如下(我能够遵守条件 1 但无法满足条件 2 和 3):

如果可能的话,请帮助我。谢谢!!

0 投票
2 回答
58 浏览

powershell - 如何修改此 Powershell 脚本?

我有一个包含 60K+ 行的文本文件。这 60K+ 行实际上是用 Natural 编写的大约 50 个左右的程序。我需要将它们分成单独的程序。我有一个脚本可以完美地解决一个缺陷。输出文件的命名。

每个程序都以“Module Name=”开头,后跟程序的实际名称。我需要拆分程序并使用实际的程序名称保存它们。

使用下面的示例,我想创建两个名为 Program1.txt 和 Program2.txt 的文件,每个文件都包含属于它们的行。我有一个脚本,也在下面,可以正确分隔文件,但我无法辨别捕获程序名称并将其用作输出文件的名称的正确方法。

例子:

代码:

0 投票
2 回答
67 浏览

python - 如何根据另一个拆分熊猫系列

我在 python pandas 中有两个系列。

一个来自名为values.csv. 它看起来像这样:

另一个被调用breaks.csv,它看起来像这样:

问题:我想values.csv根据breaks.csv.

在上面的示例中,第一个断点是5,导致文件或集合包含其中的所有条目time \in [0, 5],因此只有值0, 10312435。第二个断点是18,因此第二批值应该在(5, 18]ie之内9, 4592452311, 43423434以此类推。

在 pandas(或者其他一些易于使用的 python 包)中是否有可能发生这样的事情?