问题标签 [text-manipulation]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
5 回答
3279 浏览

python - 如何将文本文件中的某些单词大写?

我有一个包含正常句子的文本文件。实际上,我在输入该文件时很着急,所以我只是将句子第一个单词的第一个字母大写(根据英语语法)。

但是现在我希望每个单词的第一个字母都大写会更好。就像是:

这句话的每个单词都大写

上面句子中要注意的一点是ofis不是大写的,实际上我想转义等于或小于3个字母的单词。

我该怎么办?

0 投票
3 回答
10780 浏览

sed - sed - 注释匹配的行和后面的 x 行

我需要帮助来使用 sed 来注释匹配的行和它后面的 4 行。在一个文本文件中。

我的文本文件是这样的:

我想在所有具有文本“[myprocess”的行和预期输出后面的 4 行前加上 # 前缀:

非常感谢您对此的帮助。

0 投票
3 回答
64 浏览

mysql - 包含“The”的字符串的文本操作

我在 MySQL 数据库中有一个表,其中包含这样的数据;

我想按字母顺序显示它们减去前导的“The”。这就是我想出的有效方法。

这个解决方案似乎有点笨拙,有人有更优雅的答案吗?

0 投票
2 回答
437 浏览

replace - 文本操作:如何使用 sed 排除特定行

currelty 我用<以下sed命令替换所有内容

但现在我必须排除包含<title> 确切的行我必须排除和之间的<title>文本</title>

例如。以下行与我的命令匹配,但应排除此行...

我怎样才能用 sed 解决它?我在 cygwin 中使用 sed

0 投票
1 回答
1711 浏览

string - 将 Percent-Encoded URI 字符串中的汉字转换为 UTF-8 中的汉字?

好的,我不确定我的措辞是否正确,但我得到了以下形式的 url:

http://zh.wikipedia.org/wiki/%E5%A4%A9%E6%96%87%E5%AD%B8

但我想把它转换成中文字符,如下所示:

http://zh.wikipedia.org/wiki/天文学</p>

什么是批处理的好语言?是否有现有的函数来进行转换,或者我必须依赖字符串操作。似乎转换需要某种对查找表的调用。

我知道它们是相同的,但它们的显示方式不同。我喜欢不带 %# 的可读字符。

0 投票
2 回答
6646 浏览

python - 使用Python解码未知编码的繁体中文字符串

嗨,我有一个繁体中文网站,当我查看网站统计信息时,它告诉我该网站的搜索词对å%8f°å%8d%97 親å­%90é¤%90廳我来说显然没有意义。我的问题是这种编码叫什么?有没有办法使用 Python 来解码这个字符串。谢谢你。

0 投票
2 回答
180 浏览

vim - 使用 VIM 插入额外的换行符

我有一个带有连续文本的采访记录。有时,会写上说话人的名字(Aron:、Kalle:、Tomas:等)。我想在后跟冒号 (:)(我指定的名称)的每个名称之前插入一个换行符。

如何在 VIM 中编写脚本,以便当我运行命令时,它会遍历整个文本文件并插入那些额外的换行符?

换句话说,我想把这个变成:

进入:

0 投票
3 回答
522 浏览

perl - 如何计算 Perl 中文本字符串出现的次数?

我正在尝试计算文本字符串的出现次数。

下面的 Perl 代码在找到某些类型的文件时打印一条语句(文本字符串),我需要计算它打印字符串的次数。

我只是想学习 perl 而我不是程序员!所以请解释任何答案。

我不想插入、排序或合并,只是计数。

0 投票
2 回答
755 浏览

nlp - 如何将文本修剪成一定长度的完整句子?

我正在寻找一种将未知文本修剪到一定长度的解决方案。只保留完整的句子。

所以像这样的文字

应该变成

字符限制为 50、40(和 20 与 --find-next-sentence-ending)。

我读过很多 SO question - 大多数答案都是

但这显然不适用于上述句子和其他类似句子。其他人建议使用斯坦福文本解析器或 OpenNLP。它们真的很酷,但不适用于典型应用。您不会在 Ruby/PHP 服务器上安装 Java,只是为了修剪文本,对吧。所以我正在寻找一些 80/20 的解决方案,它与语言无关,并且能够处理出现的典型案例。

我想不出比这更有问题的句子(在下一个句子的开头包含日期、非点句结尾和非 ascii 字符,以及“限制”句中间的非结尾点)。

我还创建了一个 GIST (https://gist.github.com/4051035) 供您分叉和玩 - 分叉确保用户可以点击此问题的不同解决方案,所以请使用它;) 我想提出这个问题comunity-wiki,但它似乎不适用于问题 - 仅用于答案。因此,请在评论中添加任何建议/相关的 SO 问题。谢谢。

0 投票
4 回答
2136 浏览

regex - 如何删除文本文件中第一个空格后每行中的所有字符?

我有一个大的日志文件,我需要从中提取文件名。

该文件如下所示:

我需要像这样提取文件名:

我认为我的第一个策略是/path/to/用''查找/替换所有内容。但我不知道如何删除空格后的所有字符。

你能帮我吗?