问题标签 [text-manipulation]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何将文本文件中的某些单词大写?
我有一个包含正常句子的文本文件。实际上,我在输入该文件时很着急,所以我只是将句子第一个单词的第一个字母大写(根据英语语法)。
但是现在我希望每个单词的第一个字母都大写会更好。就像是:
这句话的每个单词都大写
上面句子中要注意的一点是of和is不是大写的,实际上我想转义等于或小于3个字母的单词。
我该怎么办?
sed - sed - 注释匹配的行和后面的 x 行
我需要帮助来使用 sed 来注释匹配的行和它后面的 4 行。在一个文本文件中。
我的文本文件是这样的:
我想在所有具有文本“[myprocess”的行和预期输出后面的 4 行前加上 # 前缀:
非常感谢您对此的帮助。
mysql - 包含“The”的字符串的文本操作
我在 MySQL 数据库中有一个表,其中包含这样的数据;
我想按字母顺序显示它们减去前导的“The”。这就是我想出的有效方法。
这个解决方案似乎有点笨拙,有人有更优雅的答案吗?
replace - 文本操作:如何使用 sed 排除特定行
currelty 我用<
以下sed
命令替换所有内容
但现在我必须排除包含<title>
确切的行我必须排除和之间的<title>
文本</title>
例如。以下行与我的命令匹配,但应排除此行...
我怎样才能用 sed 解决它?我在 cygwin 中使用 sed
string - 将 Percent-Encoded URI 字符串中的汉字转换为 UTF-8 中的汉字?
好的,我不确定我的措辞是否正确,但我得到了以下形式的 url:
http://zh.wikipedia.org/wiki/%E5%A4%A9%E6%96%87%E5%AD%B8
但我想把它转换成中文字符,如下所示:
http://zh.wikipedia.org/wiki/天文学</p>
什么是批处理的好语言?是否有现有的函数来进行转换,或者我必须依赖字符串操作。似乎转换需要某种对查找表的调用。
我知道它们是相同的,但它们的显示方式不同。我喜欢不带 %# 的可读字符。
python - 使用Python解码未知编码的繁体中文字符串
嗨,我有一个繁体中文网站,当我查看网站统计信息时,它告诉我该网站的搜索词对å%8f°å%8d%97 親å%90é¤%90廳
我来说显然没有意义。我的问题是这种编码叫什么?有没有办法使用 Python 来解码这个字符串。谢谢你。
vim - 使用 VIM 插入额外的换行符
我有一个带有连续文本的采访记录。有时,会写上说话人的名字(Aron:、Kalle:、Tomas:等)。我想在后跟冒号 (:)(我指定的名称)的每个名称之前插入一个换行符。
如何在 VIM 中编写脚本,以便当我运行命令时,它会遍历整个文本文件并插入那些额外的换行符?
换句话说,我想把这个变成:
进入:
perl - 如何计算 Perl 中文本字符串出现的次数?
我正在尝试计算文本字符串的出现次数。
下面的 Perl 代码在找到某些类型的文件时打印一条语句(文本字符串),我需要计算它打印字符串的次数。
我只是想学习 perl 而我不是程序员!所以请解释任何答案。
我不想插入、排序或合并,只是计数。
nlp - 如何将文本修剪成一定长度的完整句子?
我正在寻找一种将未知文本修剪到一定长度的解决方案。只保留完整的句子。
所以像这样的文字
应该变成
字符限制为 50、40(和 20 与 --find-next-sentence-ending)。
我读过很多 SO question - 大多数答案都是
但这显然不适用于上述句子和其他类似句子。其他人建议使用斯坦福文本解析器或 OpenNLP。它们真的很酷,但不适用于典型应用。您不会在 Ruby/PHP 服务器上安装 Java,只是为了修剪文本,对吧。所以我正在寻找一些 80/20 的解决方案,它与语言无关,并且能够处理出现的典型案例。
我想不出比这更有问题的句子(在下一个句子的开头包含日期、非点句结尾和非 ascii 字符,以及“限制”句中间的非结尾点)。
我还创建了一个 GIST (https://gist.github.com/4051035) 供您分叉和玩 - 分叉确保用户可以点击此问题的不同解决方案,所以请使用它;) 我想提出这个问题comunity-wiki,但它似乎不适用于问题 - 仅用于答案。因此,请在评论中添加任何建议/相关的 SO 问题。谢谢。
regex - 如何删除文本文件中第一个空格后每行中的所有字符?
我有一个大的日志文件,我需要从中提取文件名。
该文件如下所示:
我需要像这样提取文件名:
我认为我的第一个策略是/path/to/
用''查找/替换所有内容。但我不知道如何删除空格后的所有字符。
你能帮我吗?