问题标签 [uniq]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
5016 浏览

linux - 从bash中的文件计算Word出现

对于这个非常菜鸟的问题,我很抱歉,但我对bash编程有点陌生(几天前开始)。基本上我想要做的是保留一个文件与另一个文件的所有单词出现

我知道我可以这样做:

问题是在那之后我想获取第二个文件,再次计算出现次数并更新第一个文件。之后我拿了第三个文件等等。

我现在正在做的事情没有任何问题(我正在使用grep,sedawk),但它看起来很慢。

我很确定有一个非常有效的方法,只需要一个命令左右,使用uniq,但我不知道。

你能带我走正确的路吗?

我还粘贴了我写的代码:

0 投票
4 回答
4976 浏览

linux - 为什么“uniq”将相同的词视为不同的词?

我想计算文件中单词的频率,其中单词是一行一行的。该文件非常大,所以这可能是问题所在(在此示例中它计为 300k 行)。

我执行此命令:

问题是它给了我一个小错误:它认为相同的词是不同的。

例如,第一个条目是:

giochi如您所见,重复两次。

在文件的底部,它变得更糟,看起来像这样:

对于所有的话。

我究竟做错了什么?

0 投票
2 回答
5004 浏览

bash - 如何在 bash 脚本中使用 uniq -cd 并仅提取计数而不提取行?

我有一个.sh文件,它需要一个日志文件并提取数据并制作报告。我想计算弹出错误的总行数的百分比(热门话题)。

到目前为止,我有这个:

这会输出两列,计数后跟行。

我怎样才能只用计数来进行计算。例如。count / total_lines = 0.000000...

0 投票
4 回答
5869 浏览

bash - 为列的每个唯一值输出整行一次(Bash)

这肯定是一项微不足道的任务awk,但今天早上让我摸不着头脑。我有一个类似于以下格式的文件:

我想为第 2 列中肽的每个不同值打印一行,这意味着上述输入将变为:

到目前为止,这是我尝试过的,但显然我不需要:

最后一件事,它需要将作为其他肽的子串的肽视为不同的值(例如 VSSILED 和 VSSILEDKILSR)。谢谢 :)

0 投票
1 回答
1328 浏览

excel - qlikview 语法 - uniq 键

我有一个包含 4 个字段的 excel 文件:a、b、c、key。我需要检查 QV 脚本,对于每一行 a、b、c,只有键。结果应该是具有不同键的行。例如,这是我需要捕捉的不正确情况:

关键 | c | 乙 | 一个

111 | 测试3 | 测试2 | 测试1

222 | 测试3 | 测试2 | 测试1

任何人都知道如何在 qlikview 中完成?

谢谢,莉娜。

0 投票
3 回答
7952 浏览

linux - Unix 命令“uniq”和“排序”

众所周知

它从已排序的 file1 中删除重复的相邻行。选项 -c 打印每一行一次,计算每一行的实例。因此,如果我们有以下结果:

我们对上面的数据使用“sort -1knr”进行排序,结果如下:

谁能帮我解决如何按此顺序仅输出书名(无编号)?

0 投票
4 回答
10320 浏览

unix - Unix uniq, sort & cut 命令删除重复行

如果我们有以下结果:

我只想比较第一个字段(书名),并删除除每本书的第一行之外的重复行,它记录了最大的数字。所以结果如下:

谁能帮助我,我怎么能使用 uniq、sort & cut 命令?可能使用 tr、head 或 tail?

0 投票
4 回答
2498 浏览

linux - 从许多 csv 文件中删除 dups

给定 n 个 csv 文件,它们的大小加起来为 100 GB,我需要根据以下规则和条件删除重复的行:

  • csv 文件编号为 1.csv 到 n.csv,每个文件大小约为 50MB。
  • 第一列是一个字符串键,如果它们的第一列相同,则认为 2 行是重复的。
  • 我想通过将副本保留在以后的文件中来删除副本(2.csv 被认为晚于 1.csv)

我的算法如下,我想知道是否有更好的算法。

  • 将所有文件合并为一个大文件

    /li>
  • 对csv进行排序

    /li>
  • 目前不知道如何消除重复。uniq有一个跳过前 N 个字段的 -f 标志,但在我的情况下,我想跳过除前 1 个字段之外的所有字段。

我需要最后一步的帮助(消除已排序文件中的重复数据)。还有更有效的算法吗?

0 投票
2 回答
666 浏览

unix - 当三列相同时删除行

我有一个制表符分隔的文件,我想删除仅在前三列中相同的行(保留一份)。我更喜欢使用 unix 来执行此操作,例如 awk 或 uniq。

输入文件:

输出:

0 投票
2 回答
1517 浏览

perl - Perl 中不区分大小写的唯一数组元素

我正在使用模块导出的 uniq 函数 List::MoreUtils 来查找数组中的 uniq 元素。但是,我希望它以不区分大小写的方式查找 uniq 元素。我怎样才能做到这一点?

我已经使用 Data::Dumper 转储了 Array 的输出:

输出:

预期输出应该是:john, john john

只有 2 个元素,其余的都应该被过滤,因为它们是同一个词,只是大小写不同。

如何删除忽略大小写的重复元素?