0

我正在尝试从网站获取特定信息。现在我有这个 html 字符串,你可以看到我的代码,网站的 html 源代码放在“responseText”中。我知道我可以用 If 的语句来做到这一点,但这真的很乏味。我是新手,所以我不知道我在做什么。我确信必须有另一种更简单的方法来从网站检索信息......这是用于 Windows 商店的 c#,所以我不能使用 webclient。此代码获取字符串,但没有办法可以删除 html 代码,只留下变量或其他东西吗?我只想为网页执行此操作,并且我知道我想要的变量,因为我查看了网页的 html 代码。这不是一种从网站请求变量列表及其信息的方法吗?我只是有点迷失在这里。

     StringBuilder sb = new StringBuilder();
     // used on each read operation
    byte[] buf = new byte[8192];
    // prepare the web page we will be asking for
    HttpClient searchClient;
    searchClient = new HttpClient();
    searchClient.MaxResponseContentBufferSize = 256000;
    HttpResponseMessage response = await searchClient.GetAsync(url);
    response.EnsureSuccessStatusCode();
    responseText = await response.Content.ReadAsStringAsync();
4

1 回答 1

0

此代码获取字符串,但没有办法可以删除 html 代码,只留下变量或其他东西吗?

什么“变量”?您将获得 HTML - 这是来自 Web 服务器的响应。如果你想去掉那个 HTML,这取决于你。您可能希望使用HTML Tidy使其工作更愉快,但从 HTML 中提取相关信息的业务取决于您。HTML 的设计目的不是作为原始信息源的机器可读性——它是为了呈现给人类的标记。

您应该调查该信息是否可以在更机器友好的来源中获得,没有演示信息等。例如,可能有某种方法可以将数据作为 JSON 或 XML 获取。

于 2013-06-04T13:19:20.893 回答