“filesplitting”的相关标签问题

0 投票

1 回答

40 浏览

r - 在 R studio 中拆分和写入 txt 文件时出错

我有这个大文件名 Objects_Population - AllCells.txt 大约 3GB，该文件有 25704373 行和 132 个变量。我想读取文件并根据一个变量拆分行，该变量是名为treatmentsum 的列。在本专栏中，我有不同条件（3S 或 UNS）下的实验性药物治疗，即用“_”链接的字符串。因此拆分会将所有具有相同处理的行放在一起。拆分文件后，我想写出拆分文件并使用处理和给出文件名。

我的代码如下：

因此，当我运行它时，文件读取正确，并且拆分工作正常并且处理按预期吐出，即我得到一个 1092 列表（显示在环境中），每个列表都包含具有相同处理的行。然而，代码每次写给我 233 个文件后都会死掉。我已经截图了错误，生成的所有文件都是3S，没有生成UNS文件（在右下角文件目录截图中可以看到）。有人可以帮我解决这个问题并让我知道错误的含义吗？

r file-writing filesplitting txt

2020-09-23T19:17:09.390

0 投票

1 回答

272 浏览

xml - Powershell脚本将一个大文件拆分为多个文件，每个文件中有两对标签，文件名有命名约定

我正在编写一个 Powershell 脚本，将一个大文件拆分为多个文件，每个文件中有两对标签，这些小文件名必须遵循命名约定。

示例abcdef123.xml内容：

Powershell 脚本应将此大文件拆分为多个文件（文件中各有 2 对<child>& <child1>），并具有以下条件，并接受用户输入的文件名约定（所有文件名中的毫秒日期可以保持相同，但变量j应该更改):-

标准：-

为每个文件添加 header<parent>和 tail 。</parent>
文件名的格式应为UserinputstringMMDDYYYYHHMMSSMIL_n increment.xml（其中MIL是毫秒，n increment类似于001, 002, 003, ...）
没有两个文件应该具有相同的文件名。

示例文件拆分：-

文件 1；stack_10132020134434789_001.xml内容：

文件 2；stack_10132020134434791_002.xml内容：

我正在尝试的脚本：

xml powershell filesplitting

2020-10-28T14:06:26.907

0 投票

2 回答

125 浏览

bash - Bash 从 split 命令计算字母后缀（即整数到带有字母的基数 26）

该split命令默认生成格式为“aa”“ab”...“by”“bz”...的文件后缀

但是在脚本中，我需要恢复这个后缀，从文件号开始作为一个整数（没有通配符）。

我写了以下代码，但也许这里的 bash 向导有更简洁的解决方案？

或者，我可以bc与obase变量一起使用，但在 j<26 的情况下它只输出一个数字。

bash base filesplitting

2020-12-02T11:24:16.643

0 投票

1 回答

128 浏览

pandas - 使用具有字符串第 n 个字符的条件的块拆分非常大的 csv

我正在尝试拆分一个非常大的 (22GB) CSV 文件，同时使用块和数据中给定列的第 n 个字符的条件。

我一直在无助地尝试将其组合起来： Python：根据第一列的第一个字符拆分 CSV 文件

有这样的东西，但我碰壁了。我有一个列不为空的条件，但我想根据给定列的第 n 个字符拆分我的文件。

反正有没有根据这样的条件创建更小的 csv 文件。任何帮助将不胜感激。

我的数据摘要如下所示：

源名称	date_naissance	date_deces	date_mariage	地方
dgfkf47	YYYYMMDD	YYYYMMDD	等等	等等
fhfidk67	YYYYMMDD	YYYYMMDD	等等	等等
kgodj45		YYYYMMDD	等等	等等
paoror76	YYYYMMDD	万维网	等等	等等
poldidj90		YYYYMMDD

我想要做的是创建一系列较小的文件，以便稍后通过根据列 ID 的第 7 个字符拆分数据来分析数据。我知道如何在 5X10 中做到这一点，因为它适合我的记忆，我只是使用 groupby，但我被困在一个非常大的范围内。as ask 似乎并没有让我迭代 groupby。

我现在的策略是对 Dask 进行所有清理操作，包括创建一个仅包含第 7 个字符的新列，然后输出可以在 pandas 中加载并按此列分组的较小文件。

目前我已经做到了这一点，但我很想知道是否有一种简单的方法可以做到这一点：

pandas csv chunks filesplitting

2020-12-16T21:35:24.550

0 投票

1 回答

600 浏览

r - 如何使用 R 将大型 Excel 文件拆分为多个 Excel 文件

我正在寻找一种使用 R 将大型 Excel 文件拆分为多个较小 Excel 文件的方法。

具体来说，我想做三件事：

我有一个大型数据集，其中包含有关学生的信息（他们的学校、学校所在的地区、考试成绩 A、考试成绩 B），我想将这些信息分成单独的文件，每个学校一个文件包含所有就读该特定学校的学生。
我还希望所有单独的 Excel 文件都包含一个图像，该图像覆盖每个 Excel 文件的第一行和 A、B、C 和 D 列。数据集中所有学校的图像都是相同的。
最后，我还希望 Excel 文件在创建后最终位于我桌面上的各个文件夹中。文件夹名称将是学校所在的区域。一个地区大约有 3-5 所学校，因此该文件夹将包含 3-5 个 Excel 文件，每所学校 1 个。

我的数据结构如下：

区域	学校	学生卡	考试成绩A	考试成绩 B
北	一种	134	24	31
北	一种	221	26	33
南	乙	122	22	21
南	乙	126	25	25

我的数据涵盖了位于 5 个不同地区的大约 200 所学校。

任何有关如何执行此操作的指导将不胜感激！

r excel filesplitting

2020-12-30T14:31:52.287

0 投票

3 回答

1095 浏览

image - 您如何将大型 sdf 化合物文件转换为包含分子图像的单个文件？

一种新的基于图像的药物发现深度学习算法，需要将包含约 3000 种化合物的文件拆分为包含单个 2D 200 x 200 像素图像的 png 文件（.: SN00001400.png、SN00002805.png、SN00002441.png.. ......）。不需要任何构象，也不需要任何其他 3D 信息。

我可以发送一个包含 9 个复合图像、名称和微笑的初始 f1.sdf 示例，每个复合行一个。

在带有 Python 3.6、3.7 或 3.8、Jupyter 笔记本和/或 Python 提示符的 Anaconda3 中使用 rdkit 2017.09.1，在 Windows 8 专业版中的 2 个 e7 64 计算机中，我正在寻找一个简单的 Python 代码来分割图像，将它们转换为200 x 200 像素的 png 文件 (carios)，通过其对应的复合 ID 命名它们并将它们保存到不同的目录 (.: images) 中，以供测试。

我尝试了许多不同的网络代码和组合，但尽管进行了密集的测试，但它们没有工作:-(。

遵循我最好的（？）代码试验。

rdkit 进口测试

使用独特微笑的最佳测试

在这条线上，我尝试了不同的微笑，但结果相似。

在 f1.sdf 中使用 9 种化合物的最佳尝试

..................................................... .....................

希望能得到一些帮助！感谢您的关注，真诚的胡里奥

juliocollm@gmail.com

image png anaconda3 rdkit filesplitting

2021-01-21T08:37:51.817

0 投票

1 回答

55 浏览

python - 根据 ID 将嵌套的 JSON 文件拆分为两个 JSON？

我有嵌套的 JSON 文件，它作为 python 字典加载，movies_data如下所示：

它具有以下结构：

它有 3324 个键值对（即，最多 key review_3224）。我想根据特定的键列表将此文件拆分为两个 json 文件（train_movies.json, ）：test_movies.json

对于 test_movies.json 我有以下结构：

不幸的是，这种结构存在一些问题，例如不一致的双引号（" vs. '），评论之间没有逗号test_movies.json等......因此，通过读取json文件，我遇到了以下问题：

错误信息：

所需的输出应该具有与原始输出一样的正确 json 结构，movies_data以便 python 可以将其正确读取为 dict。

你能帮我纠正我的python代码吗？

先感谢您！

python json logic filesplitting

2021-01-27T23:17:34.367

0 投票

0 回答

178 浏览

python - Python - 将文本文件拆分为具有字符长度限制的多个文件

我正在尝试将 PYTHON 中的大文本文件拆分为具有以下条件的多个子文件：

子文件的字符数不得超过 1024 个字符
完整的英文句子（即从句号到下一个句号）必须在同一个文件中结束。
还要确保如果一行不以 ie 1.txt 结尾，那么它必须在 2.txt 中，并且必须重新计算 2.txt 文件的长度（并且不超过 1024 个字符）。

我一直在尝试的代码如下（我能够遵守条件 1 但无法满足条件 2 和 3）：

如果可能的话，请帮助我。谢谢！！

python text-files filesplitting

2021-02-15T12:55:50.607

0 投票

2 回答

58 浏览

powershell - 如何修改此 Powershell 脚本？

我有一个包含 60K+ 行的文本文件。这 60K+ 行实际上是用 Natural 编写的大约 50 个左右的程序。我需要将它们分成单独的程序。我有一个脚本可以完美地解决一个缺陷。输出文件的命名。

每个程序都以“Module Name=”开头，后跟程序的实际名称。我需要拆分程序并使用实际的程序名称保存它们。

使用下面的示例，我想创建两个名为 Program1.txt 和 Program2.txt 的文件，每个文件都包含属于它们的行。我有一个脚本，也在下面，可以正确分隔文件，但我无法辨别捕获程序名称并将其用作输出文件的名称的正确方法。

例子：

代码：

powershell text-parsing filesplitting

2021-05-26T18:40:08.963

0 投票

2 回答

67 浏览

python - 如何根据另一个拆分熊猫系列

我在 python pandas 中有两个系列。

一个来自名为values.csv. 它看起来像这样：

另一个被调用breaks.csv，它看起来像这样：

问题：我想values.csv根据breaks.csv.

在上面的示例中，第一个断点是5，导致文件或集合包含其中的所有条目time \in [0, 5]，因此只有值0, 10312435。第二个断点是18，因此第二批值应该在(5, 18]ie之内9, 45924523，11, 43423434以此类推。

在 pandas（或者其他一些易于使用的 python 包）中是否有可能发生这样的事情？

python pandas filesplitting

2021-06-28T07:32:38.130

问题标签 [filesplitting]

Reference