与您之前的问题一样,awk
提供了一个更易于维护且速度更快的解决方案:
awk
是最好的选择,因为您的输入本质上是基于字段的,并且将输入分解为字段是awk
亮点。要了解awk
,请参阅awk
POSIX 规范或在您的系统上运行man awk
或运行。info awk
为简单起见,并且根据示例输入,所有行内空白都假定为空格;用如果选项卡也应该匹配替换正
则表达式中的实例。[[:blank:]]
awk -F' +- +|[][]' '
{
name = $2; sub(" +[0-9.]+(mc?)?g.*", "", name)
strength = substr($2, 1 + length(name)); sub("^ +", "", strength)
form = ""
if (NF > 3) { form = $NF; sub("^ +", "", form) }
print "Ingredient:", $1
print "Brand name:", name
print "Strength: ", strength
print "Pack size: ", $3
print "Form: ", form
print "---"
}
' <<'EOF'
Calcipotriol - Daivonex Cream 50mcg/1g 30 g [1]
Candesartan cilexetil - Atacand 4mg [30] capsule
Danazol - Azol 100mg [100]
Dexamethasone - Dexmethsone 0.5g [1] tablet
EOF
产量:
Ingredient: Calcipotriol
Brand name: Daivonex Cream
Strength: 50mcg/1g 30 g
Pack size: 1
Form:
---
Ingredient: Candesartan cilexetil
Brand name: Atacand
Strength: 4mg
Pack size: 30
Form: capsule
---
Ingredient: Danazol
Brand name: Azol
Strength: 100mg
Pack size: 100
Form:
---
Ingredient: Dexamethasone
Brand name: Dexmethsone
Strength: 0.5g
Pack size: 1
Form: tablet
---
这是您纯粹尝试的固定和简化版本bash
:
while IFS= read -r line || [[ -n "$line" ]]; do
if [[ "$line" =~ ^([[:alpha:]][[:alpha:][:blank:]]*[[:alpha:]])[[:blank:][:punct:]]+([[:alpha:]][[:alpha:][:blank:]]*[[:alpha:]])[[:blank:]]+([^[]+)\[([0-9]+)\][[:blank:]]*([[:alpha:]]*)$ ]]
then
printf "Ingredient: %s\n" "${BASH_REMATCH[1]}"
printf "Brand name: %s\n" "${BASH_REMATCH[2]}"
read -r strength <<<"${BASH_REMATCH[3]}"
printf "Strength: %s\n" "$strength"
printf "Pack size: %s\n" "${BASH_REMATCH[4]}"
printf "Form: %s\n" "${BASH_REMATCH[5]}"
fi
done < "${1:-/dev/stdin}"
的实例([[:alpha:]][[:alpha:][:blank:]]*[[:alpha:]])
用于捕获成分和品牌名称;该表达式捕获一个由空格分隔的纯字母单词的变量列表(在列表中包含一个单个的 2 字母单词)。
简化的正则表达式通过使用匹配品牌名称之后的所有内容(包装大小的开头)来避免mcg
//解析困难mg
,无论它包含多少空格;因为这包括尾随空格,所以后来用于修剪它。g
[
[^[]+
read
- 如果您确实需要明确匹配
mcg
//以排除误报
mg
:g
- 替换
[^[]+
为([[:digit:].]+(mcg|mg|g)[/0-9a-zA-Z[:space:]]*)
- 将
$BASH_REMATCH
index5
替换为6
和4
,5
因为上面出于技术原因引入了一个新的捕获组 - 请参阅下面的说明。
请注意[:blank:]
(匹配制表符或空格)如何代替[:space:]
,因为后者也匹配换行符,根据定义,此处不存在。
您最初的尝试存在各种问题,Benjamin W.在对该问题的评论中已经指出了其中一些问题:
[mcg|mg|g]
应该是(mcg|mg|g)
or (mc?)?g
,因为[mcg|mg|g]
是括号表达式:在这种情况下,一组字符匹配单个字符,因此实际上匹配单个 m
, c
, |
, org
字符。
[:space:]
使用非 ASCII全角 冒号,Bash 不将其识别为字符类的一部分。
不是问题本身,而是警告和简化机会:
- 您正在混合
[:alpha:]
,a-zA-Z
并且只能保证在 ASCII 范围内工作相同;也匹配外国字母,坚持使用[:alpha:]
; 相反,[:digit:]
可以假设匹配非 ASCII 数字,因此[0-9]
可能是更安全的选择。
- 不需要
/
在[...]
in中转义bash
,因为/
它不是正则表达式元字符,也没有用作 正则表达式分隔符bash
。
[\[]
并且[\]]
表示字面意思[
并且]
不必要地复杂;使用\[
and\]
代替。
主要问题是您似乎对括号表达式的工作方式有误解。例如,[[:digit:]+[mcg|mg|g][:space:][/0-9a-zA-Z[:space:]]*]
是一个构造错误的单括号表达式,它应该是多个独立的子表达式:
[[:digit:].]+
- 一个括号表达式,用于匹配一系列数字和/或.
(例如,也匹配0.5g
)。
(mcg|mg|g)
- 一个带括号的子表达式(捕获组),使用交替|
匹配三个标记中的任何一个;请注意,(...)
在bash
正则表达式中使用总是会创建一个捕获组,即使您只需要括号来表示优先级,因此您需要在索引${BASH_REMATCH[@]}
.
[/0-9a-zA-Z[:space:]]*
- 另一个括号表达式,匹配由/
、十进制数字、ASCII 字母和空白字符组成的任何(可能为空的)字符运行。
然后加入这些子表达式应该匹配一个字符串,例如50mcg/1g 30 g
,您可以验证如下:
[[ '50mcg/1g 30 g' =~ [[:digit:].]+(mcg|mg|g)[/0-9a-zA-Z[:space:]]* ]] && echo "MATCHED: >>>${BASH_REMATCH[0]}<<<"
有很多用于可视化和调试正则表达式的在线工具,它们也是很棒的教学工具。一个例子是regex101.com。
请注意,这些工具通常不直接支持(通常是特定于平台的)正则表达式方言bash
和各种 Unix 实用程序,但选择PCRE
作为方言通常提供superset。
需要注意的是,您需要知道您的特定实用程序支持哪些子集,否则您最终可能会得到一个仅在在线测试器中有效的正则表达式。
此处展示了如何找到[[:digit:].]+(mcg|mg|g)[\/0-9a-zA-Z[:space:]]*
匹配项。50mcg/1g 30 g
这bash
是上面针对完整样本输入行测试的固定解决方案的完整正则表达式。