在我的项目中,我希望能够查看一个网站,从该网站检索文本,并稍后对这些信息进行处理。
我的问题是从网站检索数据(文本)的最佳方式是什么。我不确定在处理静态页面与处理动态页面时如何做到这一点。
通过一些搜索,我发现了这个:
WebRequest request = WebRequest.Create("anysite.com");
// If required by the server, set the credentials.
request.Credentials = CredentialCache.DefaultCredentials;
// Get the response.
HttpWebResponse response = (HttpWebResponse)request.GetResponse();
// Display the status.
Console.WriteLine(response.StatusDescription);
Console.WriteLine();
// Get the stream containing content returned by the server.
using (Stream dataStream = response.GetResponseStream())
{
// Open the stream using a StreamReader for easy access.
StreamReader reader = new StreamReader(dataStream, Encoding.UTF8);
// Read the content.
string responseString = reader.ReadToEnd();
// Display the content.
Console.WriteLine(responseString);
reader.Close();
}
response.Close();
因此,通过我自己运行它,我可以看到它从网站返回 html 代码,而不是我正在寻找的内容。我最终希望能够输入一个站点(例如一篇新闻文章),并返回文章的内容。这在 c# 或 Java 中可能吗?
谢谢