3

我正在使用 shell 脚本,其中我正在使用 awk 脚本。我awk通过使用-v选项将参数传递给 shell 脚本。在某个时间点,当参数大小超过某个限制时,我收到“参数列表太长错误”。这是我之前的问题,但我已经找到了相同的根本原因。现在我的问题是:

使用 -v 选项将变量从 shell 传递到 awk = too large ⟶ 因此获取参数列表太长错误

我的想法是将大变量分成小块并将其存储在一个数组中,然后将数组传递给awk而不是将单个变量传递给awk.

我的问题是:

  • 是否可以将大变量分解为小数组,然后将其传递回awk. 我知道如何在awk脚本中修改 shell 变量。但是如何修改awk脚本中的 shell 数组呢?

我读到 -v 选项是不可取的,他们建议通过管道传递变量值。所以如果是这样的话

echo variable | awk '{}' 

所以变量将被管道化。但是我必须将数组与其他一些变量一起传递。请你帮助我好吗?

 CODE DESCRIPTION
 addvariable=""
 export variable
 loop begins
 eval $(awk -v tempvariable="$addvariable" '{tempvariable=tempvariable+"long string"  variable=tempvariable(Here is where the shell variable(variable) is being modified )}')

  In shell
  addvariable=$variable (Taking the new value of shell variable and feeding back to awk in the next iteration)
   loop ends

所以现在的问题是随着 addvariable 和 variable 不断增加,我得到参数太长的错误.. 所以我要做的就是将 tempvariable 分成小块,然后将它存储在 variable[1] variable[2]等,然后将其分配给 addvariable[1]、addvariable[2] 和 feed addvariable[1]、[2],而不是作为一个整体提供整个 addvariable。所以我的问题是如何将它作为一个数组提供。以及如何将awk中的大数据存储到变量[1]变量[2]中

代码 addshellvariable=""

for i in {0..10}
{
zcat normalfile{i} > FILE A
zcat hugefile{i} > FILE

export shellvariable=""
getdate=grep "XXX" FILE B|sort|Uniq (getdate contains a list of id's)
eval $(awk -v getdata="$getdata" -v addshellvariable="$addshellvariable" BEGIN {tempvariable="";split(addshellvariable,tempshellvariableArray,"*");while(t <= length(tempshellvariable)) {awkarray[tempshellvariableArray[t]];} {for(id in ids) {awkarray[id];} END {for(id in awkarray) {tempvariable=tempvariable"*"id"*"awkarray[id]}  **print "shellvariable"=tempvariable;**}} FILE A)

  addshellvariable=$shellvariable;
}

所以你可以看到 awk 被嵌入到 shell 中。每次我需要将 awkarray 内容再次反馈到 awk 时.. 这样我就能够获得更新的内容,这就是我通过再次打印 shell 变量来获取 shell 变量中的 awk 数组内容的原因存储在另一个 shell 变量“addshellvariable”中,并在下一次迭代中将其提供给 awk。但问题是当 shellvariable 大小增加某个点时,我得到一个 Argument too long 错误。因此,我想要一个解决方案,而不是
print "shellvariable"=tempvariable; 我可以把它做成print "shellvariable[1]"=A part of tempvariable; 等等 ...

4

1 回答 1

3

你的外壳似乎限制了你。我怀疑您的猜测是正确的,这不是 awk 问题,而是您调用 awk 的脚本语言。

您可以使用从文件加载的变量预加载 awk。看一下这个:

$ printf 'foo=2\nbar=3\nbaz=4\n' > vars
$ printf 'snarf\nblarg\nbaz\nsnurry\n' > text
$ awk 'NR==FNR{split($0,a,"=");vars[a[1]]=a[2];next} $1 in vars {print vars[$1]}' vars text
4
$

这是如何运作的?

前两行 printf 为我们提供了原始数据。如果您对它们不完全清楚,则在没有重定向的情况下运行它们(或 cat 结果文件)。

awk 脚本有两个主要部分。awk 脚本由condition { commands }. 在这种情况下,我们有两个这样的集合。

第一组的条件为NR==FNR。如果 awk 正在处理的当前记录号 (NR) 与当前文件中的当前记录号相同,则评估为“真”。显然,这只适用于第一个文件,因为从第二个文件的第一行开始,NR 是 1 加上第一个文件的行数。

在本节中,我们split()根据它的等号划线,并将数据放入一个名为 的数组vars中。

第二组的条件为$1 in vars,如果当前行的第一个单词作为vars数组的下标存在,则计算结果为真。我仅将其作为一个示例来说明您可以使用 vars 做什么,因为我不知道您要使用这些变量实现什么目标。

这是否解决了您的问题?如果没有,我们将需要查看您的一些代码以了解如何修复它。


更新评论中的每个建议,这里证明它适用于大变量:

首先,我们准备输入数据:

$ dd if=/dev/random of=out.rand count=128k bs=1k
131072+0 records in
131072+0 records out
134217728 bytes transferred in 3.265765 secs (41098404 bytes/sec)
$ b64encode -o out.b64 out.rand out.rand
$ ls -lh out.b64
-rw-r--r--  1 ghoti  wheel   172M Jul 17 01:08 out.b64
$ awk 'BEGIN{printf("foo=")} NR>1{printf("%s",$0)} END{print ""}' out.b64 > vars
$ ls -lh vars
-rw-r--r--  1 ghoti  wheel   170M Jul 17 01:10 vars
$ wc -l vars
       1 vars
$ cut -c1-30 vars
foo=orq0UgQJyUAcwJV0SenJrSHu3j

好的,我们在一行中有一个~170MB 的变量。让我们把它吸进awk。

$ awk 'NR==FNR{split($0,a,"=");vars[a[1]]=a[2];next} END{print length(vars["foo"]);print "foo=" substr(vars["foo"],0,26);}' out.var bar
178956971
foo=orq0UgQJyUAcwJV0SenJrSHu3j

我们可以看到变量的大小,前 26 个字符与我们从 shell 中看到的一致。是的,它有效。

于 2012-07-17T03:35:12.347 回答