1

我想设计一种使用 python 的算法,它可以像这个这个一样抓取数千个页面,收集所有数据并将其插入 MySQL 数据库。该脚本将每周或每两周运行一次,以更新添加到每个单独页面的任何新信息的数据库。

理想情况下,我想要一个易于使用的刮板,用于表结构化数据以及没有唯一标识符的数据(即 id 和 classes 属性)。

我应该使用哪个刮板插件?BeautifulSoupScrapy还是机械化

是否有任何特定的教程/书籍我应该寻找这个期望的结果?

从长远来看,我将实现一个通过查询数据库来处理所有这些数据的移动应用程序。

4

2 回答 2

1

第一个念头:(为了节省一些时间)你见过返程机吗? http://archive.org/web/

第二个想法:如果你要开发一个移动应用程序,那么这个网站的布局并不适合轻松放在手持设备上。我建议不要打扰这个网页部分。您最终将不得不挖掘所有信息,并在每次他们更改其网站上的一些小东西时更改您的抓取工具。

您可以从他们的开发人员 API以 Json 或 CSV 格式获取数据。

从原始数据中,您可以将其制成您想要的任何格式。(仅根据他们的网站供个人使用)

注意事项:注意网站上的 robots.txt 文件。 http://www.robotstxt.org/robotstxt.html

如果他们不想被报废,他们会告诉你的。您可以这样做以供个人使用,但如果您尝试从他们的内容中赚钱,您会发现自己被起诉了。

于 2013-10-22T23:43:04.193 回答
0

您可以使用lxml,它可以采用XPath说明符。习惯 XPath 语法需要一段时间,但在这种情况下它很有用。

于 2013-10-22T21:52:04.540 回答