我是屏幕抓取的新手。当我使用代理服务器并跟踪 HTTP 事务时,我会向我显示我的帖子数据。所以我的疑问/问题是,1)它会存储在服务器端还是只会显示给客户端?2)我们可以选择在屏幕抓取中加密帖子数据吗?3)是否建议对银行应用程序使用屏幕抓取?我正在使用从 http://www.screen-scraper.com/download/choose_version.php下载的屏幕刮板工具。(企业版)
提前致谢。
我是屏幕抓取的新手。当我使用代理服务器并跟踪 HTTP 事务时,我会向我显示我的帖子数据。所以我的疑问/问题是,1)它会存储在服务器端还是只会显示给客户端?2)我们可以选择在屏幕抓取中加密帖子数据吗?3)是否建议对银行应用程序使用屏幕抓取?我正在使用从 http://www.screen-scraper.com/download/choose_version.php下载的屏幕刮板工具。(企业版)
提前致谢。
我在抓取方面的经验是,如果你没有做任何超级复杂的事情(比如登录到像网上银行网站这样的安全网站等),那么 Python 有一些很棒的库可以帮助你很多。
要回答您的问题:
1)您可能需要更清楚,但这实际上取决于您的服务器/客户端架构。
2)事实上,你做到了。Urllib 和 Urllib2(内置 Python 库)都具有使您能够在进行 POST 之前加密数据的功能。至于这种加密的安全性,对于大多数应用程序来说,这就足够了。
3)我实际上已经在网上银行网站上进行了抓取!我不太熟悉那个工具,但我建议使用与刮刀稍有不同的东西。Selenium 是一个“网络驱动程序”,允许您模拟浏览器的使用,这意味着浏览器在后台为验证会话所做的任何事情都会被自动处理。我在尝试抓取银行网站时遇到的主要问题是丢失了重要的会话数据。
硒 - https://pypi.python.org/pypi/selenium
您可能会发现有用的其他库是:urllib、urllib2 和 Mechanize
我希望我有点帮助!
我以前用屏幕刮板刮银行网站。它会像您的浏览器一样影响网站——如果网站使用加密,那么从屏幕抓取工具到网站的连接也会如此。
如果您有一个客户端页面向屏幕抓取器发送数据,您可能应该对其进行加密。我通常只是通过 SSH 建立连接。
1)服务器端是什么意思?您的代理服务器或屏幕抓取软件?他们中的任何一个都可以读取/存储您的信息。
2)如果您通过 HTTPS 连接,那么您的软件应该警告您恶意代理服务器:https ://security.stackexchange.com/questions/8145/does-https-prevent-man-in-the-middle-attacks-by -代理服务器
3)我认为他们没有可以阅读的记录器。但如果您担心,您可以尝试自己编写。有一些 API,您可以使用 jQuery sintax 轻松阅读 HTML: https ://pypi.python.org/pypi/pyquery或 XPath: http: //net.tutsplus.com/tutorials/javascript-ajax/web-scraping-与节点 js/