c# - 在c#中获取网站的所有页面，包括HTML、ASPX等

Question

我正在制作一个应用程序，它将返回给定网站 URl 的所有页面（带有 HTMl）。使用此代码它工作正常。

  foreach (string links in Find(htmlCode))
    {
        Debug.WriteLine(links);
        string chk = "";
        if (link != null)
        {
            chk = client.DownloadString(link);
        }}

但到目前为止，我只能访问那些以 HTML 格式提供 href 或链接的网站页面。我无法访问网站中未提及 href 的其他网页如何访问这些网页？

Facebook 页面示例我可以访问所有 Facebook 页面吗？

score 0 · Accepted Answer

不可以。如果该页面未链接到，您将无法找到它。如果您正在爬行，您还应该尊重该robots.txt文件。

c# - 在c#中获取网站的所有页面，包括HTML、ASPX等

1 回答 1

Related

Reference