0

获取页面标题与某些关键字匹配的维基百科主要文章页面的所有 HTML 表格的最佳编程方式是什么?然后我想把列名和表数据放入数据库。

还将获取 URL 和页面名称以进行归属。

我不需要细节,也许只是一些推荐的方法或一些教程的链接。

4

1 回答 1

0

解决这个问题的简单方法是根本不抓取维基百科网站。构成维基百科的所有数据、元数据和相关媒体都以结构化格式提供;所以排除任何需要抓取他们的网页。

要将 Wikipedia 中的数据获取到您的数据库中(然后您可以对其进行搜索、切片和切块,直到您满意为止):

  1. 下载数据文件
  2. 运行您选择的SQLize 工具
  3. 运行 mysqlimport
  4. 喝杯咖啡。

原始文章的 URL 应该可以很容易地从页面标题重新构建。

于 2013-07-31T05:16:50.060 回答