问题标签 [text-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - Ruby 1.9 中的 Unicode 字符串
我编写了一个 Ruby 脚本,它正在读取一个File.read()
包含 unicode 字符的文件 ( ),它在命令行中运行良好。
但是,当我尝试将其放入 Automator Workflow (Mac OS X) 时,我收到此错误;
因此,当从 Automator 运行时,split 突然不喜欢非 ASCII 字符。据我所知,两者都使用相同版本的 Ruby(版本号相同)。
我不太关心他们为什么表现不同(但如果有人知道,那就太好了),但我想要一个让 split 接受非 ASCII 字符的解决方案。
如果有帮助,我需要将单个字符的文本分成两部分,所以如果类似于 C 的标记器的东西可以工作,我可以使用它。
text-processing - 术语聚类库?
有人知道做术语聚类的开源\免费库吗?
谢谢,亚尼夫
python - 根据逻辑删除一行
我有一个文件,其中有多个包含此类数据的记录
F00DY4302B8JRQ 等级=0000030 x=800.0 y=1412.0 长度=89
现在我想搜索如果我找到 length<=50 的行,然后删除该行和文件中的下一行并写入另一个文件。
感谢大家
php - 在 PHP 中拆分文本文件
如何使用 PHP 按字符数将大文本文件拆分为单独的文件?因此,每 1000 个字符拆分 10,000 个字符的文件将被拆分为 10 个文件。此外,我只能在找到句号后拆分吗?
谢谢。
更新 1:我喜欢 zombats 代码,我删除了一些错误并提出了以下内容,但有谁知道如何只在句号后拆分?
更新 2:我接受了 zombats 的建议并将代码修改为下面的代码,它似乎可以工作 -
php - 在 PHP 中输出带有换行符的文本文件
我正在尝试打开一个文本文件并使用下面的代码输出其内容。文本文件包含换行符,但是当我回显文件时,它没有格式化。我该如何解决?
谢谢。
algorithm - 优化文本增删列表
我有一个包含文本添加和删除位置的列表,如下所示:
为了更清楚,这就是这些操作的作用:
动作的数量可以减少到:
或者:
这些操作将保存在我的数据库中,并为了优化这一点:如何减少为获得相同结果而要执行的操作数量?有比 O(n*n) 更快的方法吗?
请注意,这些操作是按时间顺序排列的,更改操作的顺序会产生另一个结果。
linux - 在每行的开头添加前缀字符串
我有一个文件如下:
我想得到:
我可以编写一个 Ruby 脚本,但如果我不需要的话会更好。
prefix
将包含/
. 例如,它是一条路径/opt/workdir/
。
linux - 使用 sed/awk 修改文本列
我有一个包含三列(制表符分隔)的输入数据,如下所示:
如何使用 sed/awk 将其修改为如下所示的四列数据:
原则上,我想将原始的“mrna”字符串分成两部分。
sql - MySQL 截断命令 - unicode 字符
我目前正在尝试调整存储在 MySQL 表中的值。存储的值包含一系列 Unicode 字符。我需要截断到 40 字节的存储空间,但是当我尝试时:
MySQL 非常有用,它保留了 40 个字符,而不是 40个字节。有没有办法解决这个问题?
问候和感谢,
外新
shell - 从命令行用新的 GUID 替换文件中的所有 GUID
我有一个文件包含大量出现的字符串Guid="GUID HERE"
(GUID HERE
每次出现唯一的 GUID),我想用新的唯一 GUID 替换每个现有的 GUID。
这是在 Windows 开发机器上,所以我可以生成唯一的 GUID uuidgen.exe
(每次运行时都会在 stdout 上生成一个 GUID)。我有sed
和这样的可用(但awk
不够奇怪)。
我基本上是想弄清楚是否可以(如果可以,如何)使用命令行程序的输出作为替换sed
表达式中的替换文本,以便我可以用最少的努力进行替换部分。我不需要使用sed
——如果有其他方法可以做到这一点,比如一些疯狂的vim
-fu 或其他程序,那也可以——但我更喜欢使用最少的 *nix 程序集的解决方案因为我不是真的在 *nix 机器上。
需要明确的是,如果我有这样的文件:
我希望它变成这样:
当然,其中 A、B、C、D 是实际的 GUID。
(例如,我见过xargs
用于类似的东西,但它在我需要运行它的机器上也不可用。如果它真的是唯一的方法,我可以安装它,虽然我宁愿不)