0

有没有办法在没有 html 标签的情况下获取 html 页面的正文?

curl 和 wget 返回响应,但包含 HTML 标记。我们可以使用 sed 和 awk 剥离标签,但我正在寻找一种无需 sed 和 awk 也能做到这一点的现有工具。

lynx 是一个选项,但它没有预先安装。

谢谢 !!

4

2 回答 2

1

为什么不喜欢安装合适的工具?

作为 lynx 的替代品,请尝试w3m,例如

w3m -dump http://google.com
于 2013-09-27T16:37:50.930 回答
0

在 PHP 中为电子邮件将 HTML 转换为纯文本列出了一些工具,如如何在 C# 中将 HTML 转换为文本?. 但是,如果lynx -dump可以满足您的要求,那么这可能是最好的安装工具。

于 2013-09-28T09:59:56.200 回答