我需要从几个页面中获取数据。数据存储在 html 表中。我想生成 SQL 文件,将它们保存到我的数据库中。我的目标之一就是这些结果。
处理网站最简单的方法可能是 JavaScript,但如何在每个网站上运行脚本并将结果写入我的硬盘驱动器?
我还可以使用 wget 下载所有需要的站点并使用 Python 处理它们,如果它有必要的库来处理 html。
我需要从几个页面中获取数据。数据存储在 html 表中。我想生成 SQL 文件,将它们保存到我的数据库中。我的目标之一就是这些结果。
处理网站最简单的方法可能是 JavaScript,但如何在每个网站上运行脚本并将结果写入我的硬盘驱动器?
我还可以使用 wget 下载所有需要的站点并使用 Python 处理它们,如果它有必要的库来处理 html。
如果我正确理解,您基本上必须从网络上抓取一些内容并将其存储在数据库中。
我可能会选择一个 Python 脚本,它通过使用urllib2
库来抓取网页,然后根据所需的内容(正则表达式、BeautifulSoup 等)以某种方式对其进行解析。
看看这个问题:Web scraping with Python