问题标签 [csplit]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
125 浏览

bash - 通过提取两个关键字之间的行来拆分文件

我有一个包含以下几行的文件:

那里有 5000 个这样MODEL的 s。我想拆分这个文件,以便每个部分的开头MODEL X和结尾TER(用点显示)都保存到自己的文件中,而其他所有内容都被丢弃。我怎样才能做到这一点?可能与awkor split

我检查了其他几个类似的问题,但未能将答案应用于我的案例。

另请注意,我使用的是 Mac OS X。

0 投票
1 回答
1623 浏览

hadoop - 在 Hadoop 上拆分文件

我在 hadoop 集群上有一个 8.8G 文件,我正在尝试提取某些行以进行测试。

看到 Apache Hadoop 2.6.0没有拆分命令,我怎么能在不下载文件的情况下做到这一点。

如果文件在 linux 服务器上,我会使用:

前面的命令按预期工作,在 Hadoop 上是否可能接近?

0 投票
1 回答
62 浏览

r - 无法从数据框中删除列,输出变成逻辑向量

data.frame我从cSplit函数中得到的似乎有问题。

NAs如果不使用以下代码,我将无法提取列:

输出是一个Named logi向量,而不是一个data.frame没有具有 NA 行的列的向量。

该问题主要是由于包的功能的data.frame输出。使用该软件包也会出现此问题。cSplitsplitstackshapedata.table

我尝试创建一个新的来提取函数输出的data.frame列,并且上面的代码工作正常。data.framecSplit

任何想法cSplit' 的data.frame输出有什么问题?

这是我的代码示例:

0 投票
2 回答
459 浏览

regex - 在带有 Form Feed Regex 的 Bash 脚本中使用 csplit

我有一个包含换页的打印输出文件 (uncomp.txt)。我正在尝试根据 \f 正则表达式匹配将单个文档拆分为多个文档,并输出带有纪元时间的文件。

我试过这个:

还有这个:

甚至这个:

但每次我都得到一个文件。它显然没有拿起 \f 正则表达式......我做错了什么?

0 投票
2 回答
2238 浏览

sql - 尽管后来删除了其他记录,如何将大 sql 转储文件拆分为小块并维护原始文件中的每条记录

这是我想要做的(MySQL 示例):

  1. 仅转储结构 - structure.sql
  2. 转储所有表数据 - data.sql
  3. 拆分 data.sql 并将每个表的数据信息放在单独的文件中 - table1.sql、table2、sql、table3.sql ... tablen.sql
  4. 将每个表拆分为较小的文件(每个文件 1k 行)
  5. 提交本地 git 存储库中的所有文件
  6. 将所有目录处理到远程安全服务器

#4 步骤有问题。

例如,我将 table1.sql 拆分为 3 个文件:table1_a.sqltable1_b.sqltable1_c.sql。如果在新转储中有新记录很好 - 它只是添加到 table1_b.sql。

但是,如果 table1_a.sql 中有已删除的记录,则所有下一条记录都会移动,git 会将文件 table1_b.sql 和 table1_c.sql 视为已更改,并且不正常。

基本上它破坏了在 SCM 中保留 sql 备份的整个想法。

我的问题:尽管后来删除了其他记录,如何将大 sql 转储文件拆分为小块并维护原始文件中的每条记录?

0 投票
3 回答
1584 浏览

linux - 在 Mac 上将 .json 文件拆分为多个文件

我在 Mac 上运行,并且有一个非常大的 .json 文件,其中包含超过 100k 个对象。

我想将文件分成许多文件(最好是 50-100)。

源文件

原始的 .json 文件是一个多维数组,看起来有点像这样:

期望的输出

如果将其拆分为三个文件,我希望输出如下所示:

文件 1:

文件 2:

文件 3:

任何想法将不胜感激。谢谢!

0 投票
2 回答
687 浏览

bash - csplit prefix as file context

I wrote a bash script in order to split a file. The file looks like this:

Here is the script I wrote:

I have two questions:

1) is there a way to include the prefix option into csplit and telling csplit that the prefix is the line after the seperator.

2) the first line created by csplit xx00 is an empty file, as the separator is in the first line. How can I avoid this?

The expected output would be files named ZINC32514653.mol2 and ZINC982347645.mol2. An in case there a two entries with the same ZINC### ZINC982347645_2.mol2.

0 投票
0 回答
442 浏览

regex - CSplit 正则表达式不起作用

我有以下文件内容

我想将它与 ---- ---- 分开。'----'之间可能还有一些其他内容。我正在使用以下内容,但它一直告诉我找不到匹配项。

0 投票
2 回答
114 浏览

regex - 如何在linux命令中选择正则表达式中的部分

我有这些行,每行开始一个单词,然后相等和几个句子,所以我喜欢选择每个部分。例如:

我想选择一个部分,例如:

我喜欢用正则表达式来做。

0 投票
1 回答
128 浏览

r - 如何将字符列拆分为多列,然后在 R 中拆分为二进制?

我得到了一个包含大约 4000 个观察值的数据集:

我希望它在第一步看起来像这样:

我用 cSplit 试过了,但我不知道如何用这个数据集来做这个。

在最后一步中,我想得到一个像这样的二进制矩阵:

如果有人能解决这个问题,那将对我有很大帮助。

非常感谢,

马雷

编辑: