bash - Shell 脚本中的关联数组

Question

我们需要一个脚本来模拟关联数组或类似于 Shell 脚本的 Map 数据结构，任何主体？

score 170 · Accepted Answer

如果可移植性不是您主要关心的问题，另一种选择是使用内置于 shell 的关联数组。这应该可以在 bash 4.0（现在在大多数主要发行版上可用，但在 OS X 上不可用，除非您自己安装）、ksh 和 zsh：

declare -A newmap
newmap[name]="Irfan Zulfiqar"
newmap[designation]=SSE
newmap[company]="My Own Company"

echo ${newmap[company]}
echo ${newmap[name]}

根据外壳，您可能需要执行 atypeset -A newmap而不是declare -A newmap，或者在某些情况下可能根本不需要。

score 108 · Accepted Answer

另一种非 bash 4 方式。

#!/bin/bash

# A pretend Python dictionary with bash 3 
ARRAY=( "cow:moo"
        "dinosaur:roar"
        "bird:chirp"
        "bash:rock" )

for animal in "${ARRAY[@]}" ; do
    KEY=${animal%%:*}
    VALUE=${animal#*:}
    printf "%s likes to %s.\n" "$KEY" "$VALUE"
done

echo -e "${ARRAY[1]%%:*} is an extinct animal which likes to ${ARRAY[1]#*:}\n"

你也可以抛出一个 if 语句来在那里搜索。如果 [[ $var =~ /blah/ ]]。管他呢。

score 35 · Accepted Answer

我认为您需要退后一步，想想地图或关联数组到底是什么。它只是一种为给定键存储值并快速有效地取回该值的方法。您可能还希望能够遍历键以检索每个键值对，或删除键及其关联值。

现在，考虑一下您在 shell 脚本中一直使用的数据结构，甚至只是在不编写脚本的 shell 中使用，它具有这些属性。难倒？这是文件系统。

真的，在 shell 编程中你需要一个关联数组就是一个临时目录。mktemp -d是您的关联数组构造函数：

prefix=$(basename -- "$0")
map=$(mktemp -dt ${prefix})
echo >${map}/key somevalue
value=$(cat ${map}/key)

如果您不想使用echoand cat，您可以随时编写一些小包装器；这些是根据 Irfan 建模的，尽管它们只是输出值而不是设置任意变量，例如$value：

#!/bin/sh

prefix=$(basename -- "$0")
mapdir=$(mktemp -dt ${prefix})
trap 'rm -r ${mapdir}' EXIT

put() {
  [ "$#" != 3 ] && exit 1
  mapname=$1; key=$2; value=$3
  [ -d "${mapdir}/${mapname}" ] || mkdir "${mapdir}/${mapname}"
  echo $value >"${mapdir}/${mapname}/${key}"
}

get() {
  [ "$#" != 2 ] && exit 1
  mapname=$1; key=$2
  cat "${mapdir}/${mapname}/${key}"
}

put "newMap" "name" "Irfan Zulfiqar"
put "newMap" "designation" "SSE"
put "newMap" "company" "My Own Company"

value=$(get "newMap" "company")
echo $value

value=$(get "newMap" "name")
echo $value

编辑：这种方法实际上比提问者建议的使用 sed 的线性搜索要快得多，而且更健壮（它允许键和值包含 -、=、空格、qnd“:SP:”）。它使用文件系统的事实并没有使它变慢。除非您调用，否则这些文件实际上永远不会保证写入磁盘sync；对于像这样生命周期很短的临时文件，它们中的许多可能永远不会写入磁盘。

我使用以下驱动程序对 Irfan 的代码、Jerry 对 Irfan 代码的修改和我的代码进行了一些基准测试：

#!/bin/sh

mapimpl=$1
numkeys=$2
numvals=$3

. ./${mapimpl}.sh    #/ <- fix broken stack overflow syntax highlighting

for (( i = 0 ; $i < $numkeys ; i += 1 ))
do
    for (( j = 0 ; $j < $numvals ; j += 1 ))
    do
        put "newMap" "key$i" "value$j"
        get "newMap" "key$i"
    done
done

结果：

    $ 时间 ./driver.sh irfan 10 5

    实际0m0.975s
    用户 0m0.280s
    系统 0m0.691s

    $ 时间 ./driver.sh 布赖恩 10 5

    实际0m0.226s
    用户 0m0.057s
    系统 0m0.123s

    $ 时间 ./driver.sh 杰里 10 5

    实际0m0.706s
    用户 0m0.228s
    系统 0m0.530s

    $ 时间 ./driver.sh irfan 100 5

    真正的 0m10.633s
    用户 0m4.366s
    系统 0m7.127s

    $ 时间 ./driver.sh 布赖恩 100 5

    真实0m1.682s
    用户 0m0.546s
    系统 0m1.082s

    $ 时间 ./driver.sh 杰里 100 5

    真正的 0m9.315s
    用户 0m4.565s
    系统 0m5.446s

    $ 时间 ./driver.sh irfan 10 500

    真正的 1m46.197s
    用户 0m44.869s
    系统 1m12.282s

    $ 时间 ./driver.sh 布赖恩 10 500

    真正的 0m16.003s
    用户 0m5.135s
    系统 0m10.396s

    $ 时间 ./driver.sh 杰里 10 500

    实际 1m24.414s
    用户 0m39.696s
    系统 0m54.834s

    $ 时间 ./driver.sh irfan 1000 5

    真正的 4m25.145s
    用户 3m17.286s
    系统 1m21.490s

    $ 时间 ./driver.sh 布赖恩 1000 5

    真正的 0m19.442s
    用户 0m5.287s
    系统 0m10.751s

    $ 时间 ./driver.sh 杰里 1000 5

    真正的 5m29.136s
    用户 4m48.926s
    系统 0m59.336s

score 21 · Accepted Answer

为了增加Irfan 的回答，这里有一个更短、更快的版本，get()因为它不需要对地图内容进行迭代：

get() {
    mapName=$1; key=$2

    map=${!mapName}
    value="$(echo $map |sed -e "s/.*--${key}=\([^ ]*\).*/\1/" -e 's/:SP:/ /g' )"
}

score 7 · Accepted Answer

Bash4 本身就支持这一点。不要使用grepor eval，它们是最丑陋的黑客。

有关示例代码的详细详细答案，请参见： https ://stackoverflow.com/questions/3467959

score 7 · Accepted Answer

####################################################################
# Bash v3 does not support associative arrays
# and we cannot use ksh since all generic scripts are on bash
# Usage: map_put map_name key value
#
function map_put
{
    alias "${1}$2"="$3"
}

# map_get map_name key
# @return value
#
function map_get
{
    alias "${1}$2" | awk -F"'" '{ print $2; }'
}

# map_keys map_name 
# @return map keys
#
function map_keys
{
    alias -p | grep $1 | cut -d'=' -f1 | awk -F"$1" '{print $2; }'
}

例子：

mapName=$(basename $0)_map_
map_put $mapName "name" "Irfan Zulfiqar"
map_put $mapName "designation" "SSE"

for key in $(map_keys $mapName)
do
    echo "$key = $(map_get $mapName $key)
done

score 5 · Accepted Answer

还有另一种非 bash-4（即 bash 3，Mac 兼容）方式：

val_of_key() {
    case $1 in
        'A1') echo 'aaa';;
        'B2') echo 'bbb';;
        'C3') echo 'ccc';;
        *) echo 'zzz';;
    esac
}

for x in 'A1' 'B2' 'C3' 'D4'; do
    y=$(val_of_key "$x")
    echo "$x => $y"
done

印刷：

A1 => aaa
B2 => bbb
C3 => ccc
D4 => zzz

带有的函数case就像一个关联数组。不幸的是它不能使用return，所以它必须echo输出，但这不是问题，除非你是一个避免分叉子shell的纯粹主义者。

score 4 · Accepted Answer

现在回答这个问题。

以下脚本模拟 shell 脚本中的关联数组。它简单易懂。

地图只不过是一个永无止境的字符串，其 keyValuePair 保存为 --name=Irfan --designation=SSE --company=My:SP:Own:SP:Company

空格替换为 ':SP:' 值

put() {
    if [ "$#" != 3 ]; then exit 1; fi
    mapName=$1; key=$2; value=`echo $3 | sed -e "s/ /:SP:/g"`
    eval map="\"\$$mapName\""
    map="`echo "$map" | sed -e "s/--$key=[^ ]*//g"` --$key=$value"
    eval $mapName="\"$map\""
}

get() {
    mapName=$1; key=$2; valueFound="false"

    eval map=\$$mapName

    for keyValuePair in ${map};
    do
        case "$keyValuePair" in
            --$key=*) value=`echo "$keyValuePair" | sed -e 's/^[^=]*=//'`
                      valueFound="true"
        esac
        if [ "$valueFound" == "true" ]; then break; fi
    done
    value=`echo $value | sed -e "s/:SP:/ /g"`
}

put "newMap" "name" "Irfan Zulfiqar"
put "newMap" "designation" "SSE"
put "newMap" "company" "My Own Company"

get "newMap" "company"
echo $value

get "newMap" "name"
echo $value

编辑：刚刚添加了另一种方法来获取所有密钥。

getKeySet() {
    if [ "$#" != 1 ]; 
    then 
        exit 1; 
    fi

    mapName=$1; 

    eval map="\"\$$mapName\""

    keySet=`
           echo $map | 
           sed -e "s/=[^ ]*//g" -e "s/\([ ]*\)--/\1/g"
          `
}

score 4 · Accepted Answer

对于 Bash 3，有一个特殊情况有一个很好且简单的解决方案：

如果您不想处理大量变量，或者键只是无效的变量标识符，并且您的数组保证少于 256 项，则可以滥用函数返回值。该解决方案不需要任何子shell，因为该值很容易作为变量获得，也不需要任何迭代，因此性能会尖叫。它的可读性也很强，几乎就像 Bash 4 版本一样。

这是最基本的版本：

hash_index() {
    case $1 in
        'foo') return 0;;
        'bar') return 1;;
        'baz') return 2;;
    esac
}

hash_vals=("foo_val"
           "bar_val"
           "baz_val");

hash_index "foo"
echo ${hash_vals[$?]}

请记住，在中使用单引号case，否则它会受到通配符的影响。从一开始就对静态/冻结哈希非常有用，但是可以从hash_keys=()数组中编写索引生成器。

注意，它默认为第一个，所以你可能想留出第零个元素：

hash_index() {
    case $1 in
        'foo') return 1;;
        'bar') return 2;;
        'baz') return 3;;
    esac
}

hash_vals=("",           # sort of like returning null/nil for a non existent key
           "foo_val"
           "bar_val"
           "baz_val");

hash_index "foo" || echo ${hash_vals[$?]}  # It can't get more readable than this

警告：长度现在不正确。

或者，如果您想保留从零开始的索引，您可以保留另一个索引值并防止不存在的键，但它的可读性较差：

hash_index() {
    case $1 in
        'foo') return 0;;
        'bar') return 1;;
        'baz') return 2;;
        *)   return 255;;
    esac
}

hash_vals=("foo_val"
           "bar_val"
           "baz_val");

hash_index "foo"
[[ $? -ne 255 ]] && echo ${hash_vals[$?]}

或者，为了保持长度正确，将索引偏移一：

hash_index() {
    case $1 in
        'foo') return 1;;
        'bar') return 2;;
        'baz') return 3;;
    esac
}

hash_vals=("foo_val"
           "bar_val"
           "baz_val");

hash_index "foo" || echo ${hash_vals[$(($? - 1))]}

score 2 · Accepted Answer

您可以使用动态变量名称并让变量名称像哈希图的键一样工作。

例如，如果您有一个包含两列名称、信用的输入文件，如下例所示，并且您想要汇总每个用户的收入：

Mary 100
John 200
Mary 50
John 300
Paul 100
Paul 400
David 100

下面的命令将以map_${person}的形式使用动态变量作为键来汇总所有内容：

while read -r person money; ((map_$person+=$money)); done < <(cat INCOME_REPORT.log)

要读取结果：

set | grep map

输出将是：

map_David=100
map_John=500
map_Mary=150
map_Paul=500

详细说明这些技术，我正在 GitHub 上开发一个功能，就像一个HashMap Object，shell_map。

为了创建“ HashMap 实例”，shell_map 函数能够以不同的名称创建自身的副本。每个新的函数副本都有一个不同的 $FUNCNAME 变量。然后使用 $FUNCNAME 为每个 Map 实例创建一个命名空间。

映射键是全局变量，格式为 $FUNCNAME_DATA_$KEY，其中 $KEY 是添加到映射的键。这些变量是动态变量。

下面我将放一个简化版本，以便您可以用作示例。

#!/bin/bash

shell_map () {
    local METHOD="$1"

    case $METHOD in
    new)
        local NEW_MAP="$2"

        # loads shell_map function declaration
        test -n "$(declare -f shell_map)" || return

        # declares in the Global Scope a copy of shell_map, under a new name.
        eval "${_/shell_map/$2}"
    ;;
    put)
        local KEY="$2"  
        local VALUE="$3"

        # declares a variable in the global scope
        eval ${FUNCNAME}_DATA_${KEY}='$VALUE'
    ;;
    get)
        local KEY="$2"
        local VALUE="${FUNCNAME}_DATA_${KEY}"
        echo "${!VALUE}"
    ;;
    keys)
        declare | grep -Po "(?<=${FUNCNAME}_DATA_)\w+((?=\=))"
    ;;
    name)
        echo $FUNCNAME
    ;;
    contains_key)
        local KEY="$2"
        compgen -v ${FUNCNAME}_DATA_${KEY} > /dev/null && return 0 || return 1
    ;;
    clear_all)
        while read var; do  
            unset $var
        done < <(compgen -v ${FUNCNAME}_DATA_)
    ;;
    remove)
        local KEY="$2"
        unset ${FUNCNAME}_DATA_${KEY}
    ;;
    size)
        compgen -v ${FUNCNAME}_DATA_${KEY} | wc -l
    ;;
    *)
        echo "unsupported operation '$1'."
        return 1
    ;;
    esac
}

用法：

shell_map new credit
credit put Mary 100
credit put John 200
for customer in `credit keys`; do 
    value=`credit get $customer`       
    echo "customer $customer has $value"
done
credit contains_key "Mary" && echo "Mary has credit!"

score 1 · Accepted Answer

添加另一个选项，如果 jq 可用：

export NAMES="{
  \"Mary\":\"100\",
  \"John\":\"200\",
  \"Mary\":\"50\",
  \"John\":\"300\",
  \"Paul\":\"100\",
  \"Paul\":\"400\",
  \"David\":\"100\"
}"
export NAME=David
echo $NAMES | jq --arg v "$NAME" '.[$v]' | tr -d '"'

score 0 · Accepted Answer

如前所述，我发现最好的方法是将键/值写入文件，然后使用 grep/awk 检索它们。这听起来像是各种不必要的 IO，但磁盘缓存启动并使其非常高效——比尝试使用上述方法之一将它们存储在内存中要快得多（如基准所示）。

这是我喜欢的一种快速、干净的方法：

hinit() {
    rm -f /tmp/hashmap.$1
}

hput() {
    echo "$2 $3" >> /tmp/hashmap.$1
}

hget() {
    grep "^$2 " /tmp/hashmap.$1 | awk '{ print $2 };'
}

hinit capitols
hput capitols France Paris
hput capitols Netherlands Amsterdam
hput capitols Spain Madrid

echo `hget capitols France` and `hget capitols Netherlands` and `hget capitols Spain`

如果您想对每个键强制执行单值，您还可以在 hput() 中执行一些 grep/sed 操作。

score 0 · Accepted Answer

很遗憾我之前没有看到这个问题 - 我已经编写了库外壳框架，其中包含地图（关联数组）。它的最后一个版本可以在这里找到。

例子：

#!/bin/bash 
#include map library
shF_PATH_TO_LIB="/usr/lib/shell-framework"
source "${shF_PATH_TO_LIB}/map"

#simple example get/put
putMapValue "mapName" "mapKey1" "map Value 2"
echo "mapName[mapKey1]: $(getMapValue "mapName" "mapKey1")"

#redefine old value to new
putMapValue "mapName" "mapKey1" "map Value 1"
echo "after change mapName[mapKey1]: $(getMapValue "mapName" "mapKey1")"

#add two new pairs key/values and print all keys
putMapValue "mapName" "mapKey2" "map Value 2"
putMapValue "mapName" "mapKey3" "map Value 3"
echo -e "mapName keys are \n$(getMapKeys "mapName")"

#create new map
putMapValue "subMapName" "subMapKey1" "sub map Value 1"
putMapValue "subMapName" "subMapKey2" "sub map Value 2"

#and put it in mapName under key "mapKey4"
putMapValue "mapName" "mapKey4" "subMapName"

#check if under two key were placed maps
echo "is map mapName[mapKey3]? - $(if isMap "$(getMapValue "mapName" "mapKey3")" ; then echo Yes; else echo No; fi)"
echo "is map mapName[mapKey4]? - $(if isMap "$(getMapValue "mapName" "mapKey4")" ; then echo Yes; else echo No; fi)"

#print map with sub maps
printf "%s\n" "$(mapToString "mapName")"

score 0 · Accepted Answer

几年前，我为 bash 编写了脚本库，它支持关联数组以及其他功能（日志记录、配置文件、对命令行参数的扩展支持、生成帮助、单元测试等）。该库包含关联数组的包装器并自动切换到适当的模型（对于 bash4 是内部的，对于以前的版本是模拟的）。它被称为 shell-framework 并托管在 origo.ethz.ch 但今天该资源已关闭。如果有人仍然需要它，我可以与您分享。

score 0 · Accepted Answer

Shell 没有像数据结构这样的内置映射，我使用原始字符串来描述这样的项目：

ARRAY=(
    "item_A|attr1|attr2|attr3"
    "item_B|attr1|attr2|attr3"
    "..."
)

提取项目及其属性时：

for item in "${ARRAY[@]}"
do
    item_name=$(echo "${item}"|awk -F "|" '{print $1}')
    item_attr1=$(echo "${item}"|awk -F "|" '{print $2}')
    item_attr2=$(echo "${item}"|awk -F "|" '{print $3}')

    echo "${item_name}"
    echo "${item_attr1}"
    echo "${item_attr2}"
done

这似乎并不比其他人的答案聪明，但对于新人来说很容易理解。

score -1 · Accepted Answer

我用以下内容修改了 Vadim 的解决方案：

####################################################################
# Bash v3 does not support associative arrays
# and we cannot use ksh since all generic scripts are on bash
# Usage: map_put map_name key value
#
function map_put
{
    alias "${1}$2"="$3"
}

# map_get map_name key
# @return value
#
function map_get {
    if type -p "${1}$2"
        then
            alias "${1}$2" | awk -F "'" '{ print $2; }';
    fi
}

# map_keys map_name 
# @return map keys
#
function map_keys
{
    alias -p | grep $1 | cut -d'=' -f1 | awk -F"$1" '{print $2; }'
}

更改是对 map_get 的更改，以防止它在您请求不存在的密钥时返回错误，尽管副作用是它也会默默地忽略丢失的地图，但它更适合我的用例，因为我只是想要检查一个键以跳过循环中的项目。

score -1 · Accepted Answer

迟到的回复，但考虑以这种方式解决问题，使用 bash 内置读取，如以下 ufw 防火墙脚本的代码片段中所示。这种方法的优点是可以根据需要使用尽可能多的分隔字段集（而不仅仅是 2 个）。我们使用了| 分隔符，因为端口范围说明符可能需要冒号，即6001:6010。

#!/usr/bin/env bash

readonly connections=(       
                            '192.168.1.4/24|tcp|22'
                            '192.168.1.4/24|tcp|53'
                            '192.168.1.4/24|tcp|80'
                            '192.168.1.4/24|tcp|139'
                            '192.168.1.4/24|tcp|443'
                            '192.168.1.4/24|tcp|445'
                            '192.168.1.4/24|tcp|631'
                            '192.168.1.4/24|tcp|5901'
                            '192.168.1.4/24|tcp|6566'
)

function set_connections(){
    local range proto port
    for fields in ${connections[@]}
    do
            IFS=$'|' read -r range proto port <<< "$fields"
            ufw allow from "$range" proto "$proto" to any port "$port"
    done
}

set_connections

bash - Shell 脚本中的关联数组

17 回答 17

Related

Reference