问题标签 [text-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
ruby - 用于普通文本处理/开发生产力工具创建的 Sed 或 Ruby
我想学习 Sed。您能否为我指出好的参考资料,以便我可以充分利用它。
我想学习它来执行更多的一次性然后忘记类型的管理或开发工具之类的任务。因此,在编写此类代码时,我并不真正关心性能、模块化或面向对象等。你认为学习 Sed 是个好主意吗?还是我应该学习 Ruby?我主要关心的是脚本的简洁性,但不是让它看起来完全晦涩难懂的一段代码。
谢谢阿杰
c# - 根据关键字选择要剪切的文本部分的最佳方法是什么?
当您在 Stackoverflow 中搜索某些内容时,它会剪切与您的条件最匹配的问题描述部分,然后标记条件词。
我想知道在 C# 中手动执行此操作的最佳方法,即无需全文搜索引擎的帮助。
主要问题是如何快速选择最佳文本部分?
到目前为止我所做的是:
- 我获得了文本的空间索引。这让我知道单词从哪里开始,以便我可以从它们开始我的子字符串测试。
- 从每个空间索引中,我提前 300 个字符并测试我找到的关键字的出现次数。
- 我假设出现次数最多的 300 个字符长的部分是最好的,所以我从原始文本中删除了它。
这是一个好方法吗?有更快的方法吗?计算出现次数是找到最相关部分的最佳方法吗?
text-processing - 分布式校验和如何工作?
我正在寻找有关 Vipul 剃须刀、Pyzor 或 DCC 等分布式校验和应用程序如何工作的信息?我有一个类似的要求,我可以在我的程序中使用这种分布式校验和功能。
所以我正在寻找一些解释分布式校验和背后算法的文档。
带着敬意,
拉吉
python - 处理非平面文件中的文本(提取信息,就好像它*是*平面文件一样)
我有一个由计算机模拟生成的纵向数据集,可以用下表表示(“var”是变量):
和
但是,生成的文件会以类似于以下格式的格式写入数据文件:
我一直在使用(python)脚本将此输出数据处理为平面文本文件,以便我可以将其导入 R、python、SQL 或 awk/grep 以提取信息 - 所需信息类型的示例单个查询(在 SQL 表示法中,数据转换为表后)如下所示:
我想知道是否有更有效的解决方案,因为这些数据文件中的每一个都可能约为 100MB(我有数百个),并且创建平面文本文件非常耗时,并且会占用额外的硬盘空间和冗余信息。理想情况下,我会直接与原始数据集交互以提取我想要的信息,而无需创建额外的平面文本文件......对于此类任务是否有更简单的 awk/perl 解决方案?我非常精通 python 中的文本处理,但我的 awk 技能还很初级,而且我没有 perl 的工作知识;我想知道这些或其他特定领域的工具是否可以提供更好的解决方案。
谢谢!
后记: 哇,谢谢大家!很抱歉我不能选择每个人的答案@FM:谢谢。我的 Python 脚本类似于您的代码,但没有过滤步骤。但是你的组织是干净的。@PP:我以为我已经精通 grep 但显然不是!这非常有帮助......但我认为将“时间”混合到输出中时 grepping 变得很困难(我未能在我的示例中将其作为可能的提取场景包括在内!那是我的错)。@ghostdog74:这真是太棒了...但是修改该行以获取“subjectA”并不简单...(尽管同时我会阅读更多关于 awk 的内容,希望以后能深入了解)。@weismat:说得好。@S.Lott:这非常优雅和灵活——我不是在要求 python(ic) 解决方案,但这完全适合解析、过滤、
再次,我感谢大家 - 非常感谢。
scripting - 如何根据另一列中的值对列中的值求和?
我有一个文本文件,它是:
我想要一个输出来总结各个值并将它们显示为结果。例如,文件中所有 ABC 值的总和为 (50 + 30 = 80),DEF 为 (100 + 70 = 170)。因此,输出应将所有唯一的第一列名称总结为 -
任何帮助将不胜感激。
谢谢
python - 用于编辑 csv 文件或 Python 的 Sed 脚本
在我们的项目中,我们需要将 csv 文件导入 postgres。有多种类型的文件,这意味着文件的长度会发生变化,因为有些文件的列较少,有些文件的列全部。
我们需要一种快速将此文件导入 postgres 的方法。我想使用 postgres 的 COPY FROM 因为处理的速度要求非常高(每分钟几乎 150 个文件,每个文件大小为 20K)。
由于文件列编号不固定,因此我需要在将文件传递给 postgres 过程之前对其进行预处理。预处理只是在 csv 中为列添加额外的逗号,这些列在文件中不存在。
我有两个选项来预处理文件 - 使用 python 或使用 Sed。
我的第一个问题是,预处理文件的最快方法是什么?
第二个问题是,如果我使用 sed,我将如何在第 4、5 个逗号字段之后插入逗号?
例如,如果文件有 1,23,56,we,89,2009-12-06 之类的条目,我需要编辑文件,最终输出如下:1,23,56,we,,89,,2009-12-06
python - 如何在python的帮助下删除文件中的所有空行?
例如,我们有一些这样的文件:
结果我们必须得到:
只使用蟒蛇
sed - sed:在一个位置上填充一个字符
这
将为此转换
进入这个
我想更改Algorithm
为algorithm
, PublicKey
topublicKey
等等。如何将第二段 ( \2
) 的第一个字符转换为小写?
更新
sed "s/public \(.*\) get\([A-Z]\)\(.*\)()/\1 \2\3/g"
选择“我的信”为\2
,但如果我\L
在它之前放置 a ,它会转换太多(包括\3
)
perl - bash:从文本文件中过滤掉连续的行
我想从许多文件中删除段落的每个实例。我称段落为一系列行。
例如:
问题是我只想在它们作为一个组出现时删除它们。例如,如果
独出现我不想删除它。unix - Unix 中的日志解析器/分析器
人们在 Unix 中用来解析/分析日志文件的流行工具是什么?进行计数,查找唯一性,选择/复制具有特定模式的特定行。请提供一些工具或一些关键字。因为我相信以前肯定有类似的问题,但我对关键字一无所知。谢谢。