Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
有没有办法在没有 html 标签的情况下获取 html 页面的正文?
curl 和 wget 返回响应,但包含 HTML 标记。我们可以使用 sed 和 awk 剥离标签,但我正在寻找一种无需 sed 和 awk 也能做到这一点的现有工具。
lynx 是一个选项,但它没有预先安装。
谢谢 !!
为什么不喜欢安装合适的工具?
作为 lynx 的替代品,请尝试w3m,例如
w3m -dump http://google.com
在 PHP 中为电子邮件将 HTML 转换为纯文本列出了一些工具,如如何在 C# 中将 HTML 转换为文本?. 但是,如果lynx -dump可以满足您的要求,那么这可能是最好的安装工具。
lynx -dump