我使用 libcurl 用 C 语言编写了一个网站爬虫,如果我们愿意,它可以从任何网站上抓取文本内容。
但是,我们需要的是能够抓取具有有效订阅的受密码保护的网站,例如大型新闻出版商。所以我们有这些网站的用户名/密码。
任何人都可以提供有关使用 libcurl 实现这一目标的建议。我知道您可以将用户名/密码添加到 libcurl 选项中。我认为这样做,只需访问可能受密码保护的正确页面,就可以了。这是 CURL 代码的摘录:
curl_easy_setopt(curlTestHandle, CURLOPT_URL, "mypasswordprotectedwebsiteurl");
curl_easy_setopt(curlTestHandle, CURLOPT_WRITEFUNCTION, WriteMemoryCallback);
curl_easy_setopt(curlTestHandle, CURLOPT_FOLLOWLOCATION, 1);
curl_easy_setopt(curlTestHandle, CURLOPT_MAXREDIRS, 5);
curl_easy_setopt(curlTestHandle, CURLOPT_USERPWD, "myusername:mypassword");
res = curl_easy_perform(curlTestHandle);
curl_easy_getinfo (curlTestHandle, CURLINFO_RESPONSE_CODE, &httpResponse);
但是,也许我简化了太多?也许它可能适用于某些网站,但不适用于其他网站?有没有人做过并实现了类似的事情?
谢谢,
马诺伊