0

所以我一直在四处寻找,试图弄清楚如何提取一些特定的数据,例如文本,并将这些数据推送到组织数据的程序中。

因此,如果您以 homedepot.com 为例,想从“2x4 wood”下列出的每个项目中提取,您需要从每个项目中获取名称、描述和规格,并将该数据导入到一个软件中包含这些数据?

所以我想这会类似于自动数据输入?

根据我的研究,我需要编写一个爬虫程序,该程序旨在搜索特定术语,然后爬取结果返回的每个页面并获取我需要的数据。

但是我有一点问题:我真的不知道任何编程/脚本,并且不确定从哪里开始。我发现了一个基于 Python 的名为 Scrapy 的东西。这是我想用于爬虫的东西吗?

我遇到的下一个问题是,我不知道现在如何将收集到的数据导入到软件中?关于我应该在哪里找到这个答案的任何提示?

我想用这个想法来帮助我学习如何编写脚本。

4

2 回答 2

0

好吧,您可能应该从一般学习语言开始,这会使学习变得更容易

但是对于 Web 的东西,您可以使用称为 urllib 和 urllib2 的东西,它们可以打开浏览器以获取数据而无需实际打开窗口

还有一些像 selenium 这样的自动网络浏览器实际上会打开窗口

您可以在互联网上查看许多其他内容

但这只是网络浏览器自动化然后你必须实际获取你想要的信息和数据你需要像你说的scrapy或beautifulsoup这些通过源代码并挑选出你想要的信息

因为我不完全知道你想要什么很难解释,但我希望这能给你一个开始的地方

但就像我说的你应该学习基本的python,这会很有帮助

我希望这有帮助!!

于 2013-05-16T03:41:14.857 回答
0

另一种选择是美丽汤。Python 是一种快速学习的语言,专注于可读性和简单性。网上有很多资源可以用来学习 Python。我推荐Learn Python the Hard Way。不要被这个名字气馁,它内容丰富,专注于传统的语言学习方法,这些方法非常有效。

于 2013-05-16T04:28:46.193 回答