问题标签 [filesplitting]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 在 R studio 中拆分和写入 txt 文件时出错
我有这个大文件名 Objects_Population - AllCells.txt 大约 3GB,该文件有 25704373 行和 132 个变量。我想读取文件并根据一个变量拆分行,该变量是名为treatmentsum 的列。在本专栏中,我有不同条件(3S 或 UNS)下的实验性药物治疗,即用“_”链接的字符串。因此拆分会将所有具有相同处理的行放在一起。拆分文件后,我想写出拆分文件并使用处理和给出文件名。
我的代码如下:
因此,当我运行它时,文件读取正确,并且拆分工作正常并且处理按预期吐出,即我得到一个 1092 列表(显示在环境中),每个列表都包含具有相同处理的行。然而,代码每次写给我 233 个文件后都会死掉。我已经截图了错误,生成的所有文件都是3S,没有生成UNS文件(在右下角文件目录截图中可以看到)。有人可以帮我解决这个问题并让我知道错误的含义吗?
xml - Powershell脚本将一个大文件拆分为多个文件,每个文件中有两对标签,文件名有命名约定
我正在编写一个 Powershell 脚本,将一个大文件拆分为多个文件,每个文件中有两对标签,这些小文件名必须遵循命名约定。
示例abcdef123.xml
内容:
Powershell 脚本应将此大文件拆分为多个文件(文件中各有 2 对<child>
& <child1>
),并具有以下条件,并接受用户输入的文件名约定(所有文件名中的毫秒日期可以保持相同,但变量j
应该更改):-
标准:-
- 为每个文件添加 header
<parent>
和 tail 。</parent>
- 文件名的格式应为
UserinputstringMMDDYYYYHHMMSSMIL_n increment.xml
(其中MIL
是毫秒,n increment
类似于001
,002
,003
, ...) - 没有两个文件应该具有相同的文件名。
示例文件拆分:-
文件 1;stack_10132020134434789_001.xml
内容:
文件 2;stack_10132020134434791_002.xml
内容:
我正在尝试的脚本:
bash - Bash 从 split 命令计算字母后缀(即整数到带有字母的基数 26)
该split
命令默认生成格式为“aa”“ab”...“by”“bz”...的文件后缀
但是在脚本中,我需要恢复这个后缀,从文件号开始作为一个整数(没有通配符)。
我写了以下代码,但也许这里的 bash 向导有更简洁的解决方案?
或者,我可以bc
与obase
变量一起使用,但在 j<26 的情况下它只输出一个数字。
pandas - 使用具有字符串第 n 个字符的条件的块拆分非常大的 csv
我正在尝试拆分一个非常大的 (22GB) CSV 文件,同时使用块和数据中给定列的第 n 个字符的条件。
我一直在无助地尝试将其组合起来: Python:根据第一列的第一个字符拆分 CSV 文件
有这样的东西,但我碰壁了。我有一个列不为空的条件,但我想根据给定列的第 n 个字符拆分我的文件。
反正有没有根据这样的条件创建更小的 csv 文件。任何帮助将不胜感激。
我的数据摘要如下所示:
源名称 | date_naissance | date_deces | date_mariage | 地方 |
---|---|---|---|---|
dgfkf47 | YYYYMMDD | YYYYMMDD | 等等 | 等等 |
fhfidk67 | YYYYMMDD | YYYYMMDD | 等等 | 等等 |
kgodj45 | YYYYMMDD | 等等 | 等等 | |
paoror76 | YYYYMMDD | 万维网 | 等等 | 等等 |
poldidj90 | YYYYMMDD |
我想要做的是创建一系列较小的文件,以便稍后通过根据列 ID 的第 7 个字符拆分数据来分析数据。我知道如何在 5X10 中做到这一点,因为它适合我的记忆,我只是使用 groupby,但我被困在一个非常大的范围内。as ask 似乎并没有让我迭代 groupby。
我现在的策略是对 Dask 进行所有清理操作,包括创建一个仅包含第 7 个字符的新列,然后输出可以在 pandas 中加载并按此列分组的较小文件。
目前我已经做到了这一点,但我很想知道是否有一种简单的方法可以做到这一点:
r - 如何使用 R 将大型 Excel 文件拆分为多个 Excel 文件
我正在寻找一种使用 R 将大型 Excel 文件拆分为多个较小 Excel 文件的方法。
具体来说,我想做三件事:
- 我有一个大型数据集,其中包含有关学生的信息(他们的学校、学校所在的地区、考试成绩 A、考试成绩 B),我想将这些信息分成单独的文件,每个学校一个文件包含所有就读该特定学校的学生。
- 我还希望所有单独的 Excel 文件都包含一个图像,该图像覆盖每个 Excel 文件的第一行和 A、B、C 和 D 列。数据集中所有学校的图像都是相同的。
- 最后,我还希望 Excel 文件在创建后最终位于我桌面上的各个文件夹中。文件夹名称将是学校所在的区域。一个地区大约有 3-5 所学校,因此该文件夹将包含 3-5 个 Excel 文件,每所学校 1 个。
我的数据结构如下:
区域 | 学校 | 学生卡 | 考试成绩A | 考试成绩 B |
---|---|---|---|---|
北 | 一种 | 134 | 24 | 31 |
北 | 一种 | 221 | 26 | 33 |
南 | 乙 | 122 | 22 | 21 |
南 | 乙 | 126 | 25 | 25 |
我的数据涵盖了位于 5 个不同地区的大约 200 所学校。
任何有关如何执行此操作的指导将不胜感激!
image - 您如何将大型 sdf 化合物文件转换为包含分子图像的单个文件?
一种新的基于图像的药物发现深度学习算法,需要将包含约 3000 种化合物的文件拆分为包含单个 2D 200 x 200 像素图像的 png 文件(.: SN00001400.png、SN00002805.png、SN00002441.png.. ......)。不需要任何构象,也不需要任何其他 3D 信息。
我可以发送一个包含 9 个复合图像、名称和微笑的初始 f1.sdf 示例,每个复合行一个。
在带有 Python 3.6、3.7 或 3.8、Jupyter 笔记本和/或 Python 提示符的 Anaconda3 中使用 rdkit 2017.09.1,在 Windows 8 专业版中的 2 个 e7 64 计算机中,我正在寻找一个简单的 Python 代码来分割图像,将它们转换为200 x 200 像素的 png 文件 (carios),通过其对应的复合 ID 命名它们并将它们保存到不同的目录 (.: images) 中,以供测试。
我尝试了许多不同的网络代码和组合,但尽管进行了密集的测试,但它们没有工作:-(。
遵循我最好的(?)代码试验。
rdkit 进口测试
使用独特微笑的最佳测试
在这条线上,我尝试了不同的微笑,但结果相似。
在 f1.sdf 中使用 9 种化合物的最佳尝试
..................................................... .....................
希望能得到一些帮助!感谢您的关注,真诚的胡里奥
juliocollm@gmail.com
python - 根据 ID 将嵌套的 JSON 文件拆分为两个 JSON?
我有嵌套的 JSON 文件,它作为 python 字典加载,movies_data
如下所示:
它具有以下结构:
它有 3324 个键值对(即,最多 key review_3224)。我想根据特定的键列表将此文件拆分为两个 json 文件(train_movies.json
, ):test_movies.json
对于 test_movies.json 我有以下结构:
不幸的是,这种结构存在一些问题,例如不一致的双引号(" vs. '
),评论之间没有逗号test_movies.json
等......因此,通过读取json
文件,我遇到了以下问题:
错误信息:
所需的输出应该具有与原始输出一样的正确 json 结构,movies_data
以便 python 可以将其正确读取为 dict。
你能帮我纠正我的python代码吗?
先感谢您!
python - Python - 将文本文件拆分为具有字符长度限制的多个文件
我正在尝试将 PYTHON 中的大文本文件拆分为具有以下条件的多个子文件:
- 子文件的字符数不得超过 1024 个字符
- 完整的英文句子(即从句号到下一个句号)必须在同一个文件中结束。
- 还要确保如果一行不以 ie 1.txt 结尾,那么它必须在 2.txt 中,并且必须重新计算 2.txt 文件的长度(并且不超过 1024 个字符)。
我一直在尝试的代码如下(我能够遵守条件 1 但无法满足条件 2 和 3):
如果可能的话,请帮助我。谢谢!!
powershell - 如何修改此 Powershell 脚本?
我有一个包含 60K+ 行的文本文件。这 60K+ 行实际上是用 Natural 编写的大约 50 个左右的程序。我需要将它们分成单独的程序。我有一个脚本可以完美地解决一个缺陷。输出文件的命名。
每个程序都以“Module Name=”开头,后跟程序的实际名称。我需要拆分程序并使用实际的程序名称保存它们。
使用下面的示例,我想创建两个名为 Program1.txt 和 Program2.txt 的文件,每个文件都包含属于它们的行。我有一个脚本,也在下面,可以正确分隔文件,但我无法辨别捕获程序名称并将其用作输出文件的名称的正确方法。
例子:
代码:
python - 如何根据另一个拆分熊猫系列
我在 python pandas 中有两个系列。
一个来自名为values.csv
. 它看起来像这样:
另一个被调用breaks.csv
,它看起来像这样:
问题:我想values.csv
根据breaks.csv
.
在上面的示例中,第一个断点是5
,导致文件或集合包含其中的所有条目time \in [0, 5]
,因此只有值0, 10312435
。第二个断点是18
,因此第二批值应该在(5, 18]
ie之内9, 45924523
,11, 43423434
以此类推。
在 pandas(或者其他一些易于使用的 python 包)中是否有可能发生这样的事情?