-1

我正在考虑开始一个涉及屏幕抓取各种网站的小项目,我想将其数据存储在服务器上的 SQL 数据库中。

几年前,我使用 C# 和名为“screen-scraper”的软件完成了这个项目,它为我完成了大部分艰苦的工作,但我认为这个解决方案并不像它可能的那样好,尽管它最终可以工作,所以我这次想做得更好。由于我现在不记得的原因,我永远无法在服务器上运行 screen-scraper 并且总是不得不让我自己的另一台计算机自行进行抓取,然后数据将从那里上传到服务器..(也许我只是个白痴)。

尽管我以前没有 Python 经验,但我听说过有关 Python 和 Beautiful Soup 的非常好的事情。

我希望最终一切都能够在服务器端运行,因此 python 脚本在某些服务器上运行 24/7,以某种频率更新 SQL 数据库。其他代码也将存在于服务器上,并由用户调用以操作数据库等中的数据。

我对基于 C 的语言有更多经验,但如果值得的话,我不介意学习一些 Python。我只是想确保我朝着正确的方向前进..

4

1 回答 1

0

Python 很好,可能是最流行的抓取选择。我不鼓励漂亮的汤,因为它使用它自己的语法,而 lxml 使用 xpath,如果你了解它,它在你的 c 项目中也会很有用。

于 2012-04-23T00:26:28.623 回答