我正在使用 bash shell 脚本开发一个项目。这个想法是 grep 一个 wget 检索到的页面,以便在网页上获取某个段落。我要复制的区域,通常以
<p><b>
但是该段落还包含我不想出现在 grep 输出中的其他一些 HTML 代码,例如锚标记。
我努力了
cat page.html| grep "<p><b>" >grep.txt
然后我 grep 输出文件,它现在包含我想要的段落
cat grep.txt|grep -v '<p>|<b>|<a>' >grep.txt
但是它所做的只是从文件中清除所有内容,而不是读取任何内容。我怎样才能让它只排除 HTML 代码?
我还尝试遵循我 grep 段落中的链接,以便对这些页面执行相同的操作。只有 2 层深,所以主页和子页面都源于主页的第一段。我知道这是一个困难的想法,希望我解释得足够好以获得一些帮助。如果您有任何想法,我们将不胜感激。