1

据我所知,我是 Linux Shell 脚本的新手,在文件中使用查找数字可以通过 grep 完成

egrep -o "[0-9][0-9]*" my_file

但是我如何获得这些字符串的第一个数字并使其成为统计数据.. 例如 1234、123、1267 所以我得到 1 的 3 次

我知道使用

A=$(tr -cd 1 < page.html|wc -c)

可以在文件中获得数字“1”,但这不是我想要的......我想计算第一个数字“1”......这就是为什么对我来说很难......

请帮助......非常感谢。

4

2 回答 2

3
A=$(egrep -o '[0-9]+' my_file | egrep -c '^1')

第一个egrep找到所有数字并输出它们。第二个egrep使用-c选项输出匹配计数,正则表达式匹配以 . 开头的行1

于 2013-06-07T04:24:21.803 回答
0

从问题来看,该文件似乎包含各种字符,并且您想隔离文件中所有数字的第一个数字。看起来数字不必是一行的第一个单词(如在它之前没有任何空格)。牢记这两个假设,您可以执行以下操作:

grep '[0-9]' test.html| sed 's/\([0-9]\+\)/\n\1\n/g' |grep '^[0-9]' |cut -c1 |sort |uniq -c

一个例子:

curl -N -s 'http://stackoverflow.com/users/1353267/samveen' |grep '[0-9]' |sed 's/\([0-9]\+\)/\n\1\n/g' |cut -c1 |grep '^[0-9]' |sort |uniq -c

重要提示:在上面的示例页面中,有一行{"fkey":"8f1a9c6e21503516793b853265ec4939","isRegistered":true,"userId":1353267,"accountId":1430801,"gravatar":"<div class=\"\">,将分为如下:

{"fkey":"
8
f
1
a
9
c
6
e
21503516793
b
853265
ec
4939
","isRegistered":true,"userId":
1353267
,"accountId":
1430801
,"gravatar":"<div class=\"\">

如果您不希望这种行为,sed模式将更改为
sed 's/\b\([0-9]\+\)\b/\n\1\n/g',这意味着现在搜索独立数字(\b是单词边界),并且 sed 命令的输出现在是:

{"fkey":"8f1a9c6e21503516793b853265ec4939","isRegistered":true,"userId":
1353267
,"accountId":
1430801
,"gravatar":"<div class=\"\">

此外,如果sed巧妙地选择了转换,则不需要 cut 命令。也就是说,如果
\([0-9]\+\)模式的一部分更改为\([0-9]\)[0-9]*,则 sed 将仅显示每个数字的第一个数字,而不是整个数字。因此不再需要cut -c1。使用
sed 's/\b\([0-9]\)[0-9]*\b/\n\1\n/g',我们得到:

{"fkey":"8f1a9c6e21503516793b853265ec4939","isRegistered":true,"userId":
1
,"accountId":
1
,"gravatar":"<div class=\"\">

因此,无需切割。

给定有关输入文件的更多信息,可以进一步优化该命令。

于 2013-06-07T06:07:34.440 回答