我想去除所有标签,从维基百科中删除 [show][Hide] 的东西,或者是否有一些网站可以使页面格式更具可读性。
请我知道维基百科的可打印版本,但我不需要任何标签,因为我还有其他用途。因此,请仅回答原始问题,关于任何网站或网络服务或 php/C# 中的代码片段以从网页中删除标签。
也就像当我从 Firefox 复制一些列表时它替换<li>
为 *,是否可以在 Firefox 中设置一些东西以返回一些其他不可读的字符,比如某种
您可以从查看strip_tags函数开始。
我想去除所有标签,从维基百科中删除 [show][Hide] 的东西,或者是否有一些网站可以使页面格式更具可读性。
你应该看看 DBpedia、Wikipedia,但只是数据。
例如,您可以使用 HTML 解析器、BeautifulSoup (Python) 或Simple HTML DOM。或者您可以尝试使用 XML 解析器。
htmlagilitypack 怎么样
stackoverflow 中可用的类似线程
试试这个功能。
Dim pattern As String = "<(.|\n)*?>"
Return System.Text.RegularExpressions.Regex.Replace(strHtmlString, pattern, String.Empty).Trim()