c# - 如何从c#获取网站标题

Question

我正在重新访问我的一些旧代码，并偶然发现了一种根据其 url 获取网站标题的方法。这并不是您所说的稳定方法，因为它通常无法产生结果，有时甚至会产生不正确的结果。此外，有时它无法显示标题中的某些字符，因为它们是另一种编码。

有没有人对这个旧版本有改进的建议？

public static string SuggestTitle(string url, int timeout)
{
    WebResponse response = null;
    string line = string.Empty;

    try
    {
        WebRequest request = WebRequest.Create(url);
        request.Timeout = timeout;

        response = request.GetResponse();
        Stream streamReceive = response.GetResponseStream();
        Encoding encoding = System.Text.Encoding.GetEncoding("utf-8");
        StreamReader streamRead = new System.IO.StreamReader(streamReceive, encoding);

        while(streamRead.EndOfStream != true)
        {
            line = streamRead.ReadLine();
            if (line.Contains("<title>"))
            {
                line = line.Split(new char[] { '<', '>' })[2];
                break;
            }
        }
    }
    catch (Exception) { }
    finally
    {
        if (response != null)
        {
            response.Close();
        }
    }

    return line;
}

最后一点 - 我希望代码也能更快地运行，因为它会阻塞直到页面被获取，所以如果我只能获取站点标题而不是整个页面，那就太好了。

score 48 · Accepted Answer

获取内容的更简单方法：

WebClient x = new WebClient();
string source = x.DownloadString("http://www.singingeels.com/");

更简单、更可靠的获取标题的方法：

string title = Regex.Match(source, @"\<title\b[^>]*\>\s*(?<Title>[\s\S]*?)\</title\>",
    RegexOptions.IgnoreCase).Groups["Title"].Value;

score 5 · Accepted Answer

也许有了这个建议，一个新世界为你打开了我也有这个问题并来到了这个

从http://html-agility-pack.net/?z=codeplex下载“Html 敏捷包”

或转到 nuget：https ://www.nuget.org/packages/HtmlAgilityPack/ 并添加此参考。

在代码文件中添加以下使用：

using HtmlAgilityPack;

在您的方法中编写以下代码：

var webGet = new HtmlWeb();
var document = webGet.Load(url);    
var title = document.DocumentNode.SelectSingleNode("html/head/title").InnerText;

资料来源：

https://codeshare.co.uk/blog/how-to-scrape-meta-data-from-a-url-using-htmlagilitypack-in-c/ HtmlAgilityPack 获取 Title 和 meta

score -1 · Accepted Answer

为了实现这一点，您将需要做几件事。

使您的应用程序线程化，以便您可以同时处理多个请求并最大化正在发出的 HTTP 请求的数量。
在异步请求期间，仅下载您想要拉回的数据量，您可以在数据返回时对其进行解析
大概是想用正则表达式拉出标题名

我以前用 SEO 机器人做过这个，我一次可以处理近 10,000 个请求。您只需要确保每个 Web 请求都可以自包含在一个线程中。

c# - 如何从c#获取网站标题

3 回答 3

Related

Reference