2

我觉得我几乎应该给这个/这些冗长的问题一个粗略的提要..

如果所有这些问题都已在之前的问答帖子中得到具体回答,我深表歉意,但我无法找到任何专门解决以下所有问题的问题。

这个问题涉及从网络中提取数据(即网络抓取、数据挖掘等)。我花了将近一年的时间研究这些领域以及如何将其应用于某个行业。我也熟悉了 php 和 mysql/myphpmyadmin。

简而言之,我正在寻找一种尽可能快速有效地从网站(可能价值几场演出)中提取信息的方法。我尝试过像 scrapy 和 webharvey 这样的网页抓取程序。我还尝试过 HTTrack 之类的程序。都有自己的长处和短处。我发现 webharvey 工作得很好,但是在抓取存储在画廊小部件中的图像时它有其局限性。此外,我发现我从中提取的许多网站都使用其他方法使挖掘数据变得痛苦。使用 webharvey 提取数据需要几个月的时间。鉴于我将以 csv 格式导出的数百万行数据提取到 excel 中,因此我不能抱怨。但同样,图像和某些 ajax 小部件在尝试提取图像文件时会导致程序关闭。

所以我的问题如下:

  1. 有没有更快的方法来提取所述数据?
  2. 有什么方法可以绕过 webharvey 图像限制(即只能在图库小部件中提取一张图像/无法在网站上跟踪子页面链接,这些链接嵌入了他们的垃圾有趣并试图通过编码变得可爱)?
  3. 他们是否有任何方法绕过限制搜索结果数量的站点搜索表单参数(即获取整个州内的所有企业列表,而不是每个搜索表单限制仅限于县)**

此外,这是公共信息,因此不能受版权保护;任何人都可以接受:)(例如:Feist Publications v. Rural Telephone Service)。提取信息就是提取信息。只要我们在谈论事实/公共信息,提取它是合法的。

话虽如此,提取此“公共”信息(假设存在漏洞)的最有效方法(此处为灰色区域)不是通过使用 sql 注入吗?...如果有人这么倾向于?:)

作为一个附带问题,Tor 在隐藏 IP 地址方面的效果如何?哈哈

任何帮助、反馈、建议或批评将不胜感激。我绝不是上述任何领域的专家。我只是一个积极进取的人,对编程和自动化越来越感兴趣,有很多疯狂的想法。谢谢你。

4

1 回答 1

0

您最好使用PhantomJS (JavaScript) 等无头浏览器库或Selenium WebDriver (Java)等测试框架编写自己的 Linux 命令行抓取程序。

完成抓取程序后,您可以通过将其安装在云服务器(例如 Amazon EC2、Linode、Google Compute Engine 或 Microsoft Azure)上并将服务器映像复制到所需数量来扩展它。

于 2013-10-14T02:22:35.217 回答