0

我有以下有效的代码。

Imports System.IO
Imports System.Net

Module Module1

    Sub Main()

        Dim webClient1 As New WebClient()
        webClient1.Encoding = System.Text.Encoding.ASCII
        webClient1.DownloadFile("http://www.bmreports.com/servlet/com.logica.neta.bwp_MarketIndexServlet?displayCsv=true", "C:\temp\stream.txt")
    End Sub

End Module

这会创建文本文件,但它也会下载所有 html。我怎样才能省略它而只获取页面上显示的文本?

4

1 回答 1

1

您可以使用 Regex 从文档中删除所有 html 标签:

  Dim source as string = File.ReadAllText("C:\temp\stream.txt")

  'Clean html tags
  source = StripTagsRegex(source)

  'Strip function

  Private Function StripTagsRegex(source As String) As String
    Return Regex.Replace(source, "<.*?>", String.Empty)
  End Function

在这里,您有一个正则表达式示例,它仅提取文本:

http://regexr.com?36ori

于 2013-10-16T09:21:55.297 回答