可能重复:
解析网页
我正在尝试用 C# 解析网页的内容。这是我使用的代码:
WebRequest request = WebRequest.Create("URL");
WebResponse response = request.GetResponse();
Stream data = response.GetResponseStream();
string html = String.Empty;
using (StreamReader sr = new StreamReader(data))
{
html = sr.ReadToEnd();
}
但问题是我得到了 html 包含的所有数据。
您对如何以“干净”的方式获取有用的数据有什么建议,或者我必须构建自己的解析器?例如:包含标题和与之相关的文本的帖子,类似博客的格式。