1

我想去除所有标签,从维基百科中删除 [show][Hide] 的东西,或者是否有一些网站可以使页面格式更具可读性。

请我知道维基百科的可打印版本,但我不需要任何标签,因为我还有其他用途。因此,请仅回答原始问题,关于任何网站或网络服务或 php/C# 中的代码片段以从网页中删除标签。

也就像当我从 Firefox 复制一些列表时它替换<li>为 *,是否可以在 Firefox 中设置一些东西以返回一些其他不可读的字符,比如某种

  • 4

    4 回答 4

    2

    您可以从查看strip_tags函数开始。

    于 2009-11-24T08:23:09.597 回答
    0

    我想去除所有标签,从维基百科中删除 [show][Hide] 的东西,或者是否有一些网站可以使页面格式更具可读性。

    你应该看看 DBpedia、Wikipedia,但只是数据。

    http://dbpedia.org/关于

    于 2009-11-24T09:06:09.667 回答
    0

    例如,您可以使用 HTML 解析器、BeautifulSoup (Python) 或Simple HTML DOM。或者您可以尝试使用 XML 解析器。

    于 2009-11-24T10:31:29.743 回答
    -1

    htmlagilitypack 怎么样

    htmlagilitypackt

    stackoverflow 中可用的类似线程

    有维基百科 API 吗?

    试试这个功能。

    Dim pattern As String = "<(.|\n)*?>"
    Return System.Text.RegularExpressions.Regex.Replace(strHtmlString, pattern, String.Empty).Trim()
    
    于 2009-11-24T08:44:12.250 回答