问题标签 [text-processing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1680 浏览

ruby - Ruby 1.9 中的 Unicode 字符串

我编写了一个 Ruby 脚本,它正在读取一个File.read()包含 unicode 字符的文件 ( ),它在命令行中运行良好。

但是,当我尝试将其放入 Automator Workflow (Mac OS X) 时,我收到此错误;

因此,当从 Automator 运行时,sp​​lit 突然不喜欢非 ASCII 字符。据我所知,两者都使用相同版本的 Ruby(版本号相同)。

我不太关心他们为什么表现不同(但如果有人知道,那就太好了),但我想要一个让 split 接受非 ASCII 字符的解决方案。

如果有帮助,我需要将单个字符的文本分成两部分,所以如果类似于 C 的标记器的东西可以工作,我可以使用它。

0 投票
5 回答
441 浏览

text-processing - 术语聚类库?

有人知道做术语聚类的开源\免费库吗?

谢谢,亚尼夫

0 投票
3 回答
167 浏览

python - 根据逻辑删除一行

我有一个文件,其中有多个包含此类数据的记录

F00DY4302B8JRQ 等级=0000030 x=800.0 y=1412.0 长度=89

现在我想搜索如果我找到 length<=50 的行,然后删除该行和文件中的下一行并写入另一个文件。

感谢大家

0 投票
6 回答
13272 浏览

php - 在 PHP 中拆分文本文件

如何使用 PHP 按字符数将大文本文件拆分为单独的文件?因此,每 1000 个字符拆分 10,000 个字符的文件将被拆分为 10 个文件。此外,我只能在找到句号后拆分吗?

谢谢。

更新 1:我喜欢 zombats 代码,我删除了一些错误并提出了以下内容,但有谁知道如何只在句号后拆分?

更新 2:我接受了 zombats 的建议并将代码修改为下面的代码,它似乎可以工作 -

0 投票
9 回答
53960 浏览

php - 在 PHP 中输​​出带有换行符的文本文件

我正在尝试打开一个文本文件并使用下面的代码输出其内容。文本文件包含换行符,但是当我回显文件时,它没有格式化。我该如何解决?

谢谢。

0 投票
6 回答
243 浏览

algorithm - 优化文本增删列表

我有一个包含文本添加和删除位置的列表,如下所示:

为了更清楚,这就是这些操作的作用:

动作的数量可以减少到:

或者:

这些操作将保存在我的数据库中,并为了优化这一点:如何减少为获得相同结果而要执行的操作数量?有比 O(n*n) 更快的方法吗?

请注意,这些操作是按时间顺序排列的,更改操作的顺序会产生另一个结果。

0 投票
18 回答
449070 浏览

linux - 在每行的开头添加前缀字符串

我有一个文件如下:

我想得到:

我可以编写一个 Ruby 脚本,但如果我不需要的话会更好。

prefix将包含/. 例如,它是一条路径/opt/workdir/

0 投票
7 回答
1956 浏览

linux - 使用 sed/awk 修改文本列

我有一个包含三列(制表符分隔)的输入数据,如下所示:

如何使用 sed/awk 将其修改为如下所示的四列数据:

原则上,我想将原始的“mrna”字符串分成两部分。

0 投票
2 回答
276 浏览

sql - MySQL 截断命令 - unicode 字符

我目前正在尝试调整存储在 MySQL 表中的值。存储的值包含一系列 Unicode 字符。我需要截断到 40 字节的存储空间,但是当我尝试时:

MySQL 非常有用,它保留了 40 个字符,而不是 40个字节。有没有办法解决这个问题?

问候和感谢,

外新

0 投票
5 回答
9063 浏览

shell - 从命令行用新的 GUID 替换文件中的所有 GUID

我有一个文件包含大量出现的字符串Guid="GUID HERE"GUID HERE每次出现唯一的 GUID),我想用新的唯一 GUID 替换每个现有的 GUID。

这是在 Windows 开发机器上,所以我可以生成唯一的 GUID uuidgen.exe(每次运行时都会在 stdout 上生成一个 GUID)。我有sed和这样的可用(但awk不够奇怪)。

我基本上是想弄清楚是否可以(如果可以,如何)使用命令行程序的输出作为替换sed表达式中的替换文本,以便我可以用最少的努力进行替换部分。我不需要使用sed——如果有其他方法可以做到这一点,比如一些疯狂的vim-fu 或其他程序,那也可以——但我更喜欢使用最少的 *nix 程序集的解决方案因为我不是真的在 *nix 机器上。

需要明确的是,如果我有这样的文件:

我希望它变成这样:

当然,其中 A、B、C、D 是实际的 GUID。

(例如,我见过xargs用于类似的东西,但它在我需要运行它的机器上也不可用。如果它真的是唯一的方法,我可以安装它,虽然我宁愿不)