我有一个关于 PHPCrawl 的问题,用于抓取我有密码的受密码保护的网站。
所以,我有适用于不需要身份验证的网站的爬虫。我从终端执行的爬虫(ubuntu 14.04)。但是当我尝试在需要用户名和密码的网站上使用它时,它不起作用。我试过PHPCrawl->addBasicAuthentication
但没有帮助。然后,我有了以下想法 - 从浏览器调用爬虫,首先我打开一个标签,在其中打开我要爬的网站并登录。
但我假设 PHPCrawl 不知道身份验证会话。所以,我的问题是:有没有人知道如何让 PHPCrawl 知道我已登录并毫无问题地抓取网站?