http - wget 没有 HTML 标签

Question

有没有办法在没有 html 标签的情况下获取 html 页面的正文？

curl 和 wget 返回响应，但包含 HTML 标记。我们可以使用 sed 和 awk 剥离标签，但我正在寻找一种无需 sed 和 awk 也能做到这一点的现有工具。

lynx 是一个选项，但它没有预先安装。

谢谢！！

score 1 · Accepted Answer

为什么不喜欢安装合适的工具？

作为 lynx 的替代品，请尝试w3m，例如

w3m -dump http://google.com

score 0 · Accepted Answer

在 PHP 中为电子邮件将 HTML 转换为纯文本列出了一些工具，如如何在 C# 中将 HTML 转换为文本？. 但是，如果lynx -dump可以满足您的要求，那么这可能是最好的安装工具。

2 回答 2