我有一些 html 文件,想提取一些标签之间的内容: 页面的标题 some tagged content here。
<p>A paragraph comes here</p>
<p>A paragraph comes here</p><span class="more-about">Some text here</span><p class="en-cpy">Copyright © 2012 </p>
我只想要这些标签:head, p 但正如在第二段中可以看到的,最后一个标签是以 p 开头但不是我的欲望标签,我不想要它的内容。我使用以下脚本来提取我想要的文本,但我无法过滤掉我的示例中的最后一个标签等标签.... 怎么可能只提取<p>
标签?
grep "<p>" $File | sed -e 's/^[ \t]*//'
我必须补充一点,最后一个标签(我不想出现在输出中)就在我想要的标签之一之后(就像在我的示例中一样),并且使用 grep 命令将返回该行的所有内容作为输出......(这是我的问题)