我有一个 XML 文件,我希望提取所有出现的某个标签 AB。该文件是一长行,包含约 500 000 个字符。
现在我确实知道正则表达式等,但是当我尝试使用它sed
并尝试仅提取标签中的字符时,我对结果完全迷失了:)。
这是我的命令:
sed -r 's/(.*)<my_tag>([A-Z][A-Z])<\/my_tag>(.*)/hello\2/g' myfile.out
仅使用“helloAB”转换整个文件,例如,预期应至少包含 100 多个匹配项。
所以我正在考虑贪婪匹配等概念,但没有得到任何结果。也许awk
是一个更好的主意?