xml - awk，提取不同分隔符之间的字符串

Question

我有如下的xml文件：

<Name ns1:translate="yes">Overview</Name>     
<TextValue>Start</TextValue>
<Title ns1:translate="yes">This is a "book"</Title>
<Title>BOOK</Title>
<Description ns1:translate="yes"/>
<TextValue ns1:translate="yes">End</TextValue>

如果标签包含 translate="yes"，我想提取字符串。输出应如下所示：

Overview = Overview
This is a "book" = This is a "book"
   = 
End = End

我需要使用 shell 脚本进行上述提取。我尝试使用：

awk awk -F '["<>]' '{if (/.*translate="yes".*/) {print ((NF>6?OFS $(NF-2):x))}

但这并没有给我想要的结果，因为输出中的“书”没有被打印出来。请让我知道上面的 awk 有什么问题。

score 1 · Accepted Answer

就像tripleee 建议的那样，您应该使用xml 解析器。对于使用的肮脏解决方案awk，您可以执行以下操作：

awk -F '[<>]' '{ for (i=1; i<=NF; i++) if ($i ~ /translate="yes"/) print $(i+1), "=", $(i+1) }' file.txt

结果：

Overview = Overview
This is a "book" = This is a "book"
 = 
End = End

此解决方案将仅在 find 后打印下一个元素translate="yes"。YMMV。

score 1 · Accepted Answer

>awk 'BEGIN{FS="<|>"}/translate="yes"/{split($2,a,">");print a[2]"="a[2]}' temp
Overview=Overview
This is a "book"=This is a "book"
=
End=End

xml - awk，提取不同分隔符之间的字符串

2 回答 2

Related

Reference