3

我想提取维基百科文章的介绍部分(忽略所有其他内容,包括表格、图像和其他部分)。我查看了文章的 html 源代码,但我没有看到这部分包含的任何特殊标签。

谁能给我一个快速的解决方案?我正在编写python脚本。

谢谢

4

2 回答 2

3
  1. 您可能需要检查mwlib以解析维基百科源
  2. 或者,使用wikidump
  3. 通过BeautifulSoup抓取 HTML 屏幕

啊,关于这个话题已经有一个问题了:

  1. 解析维基百科转储
  2. 如何通过 python 从 mediawiki 标记文章中解析/提取数据
于 2010-11-28T02:48:54.920 回答
0

我认为您通常可以通过获取整页,剥离所有表格,然后在标记之后查找 <p>...</p> 块的第一个序列来获得介绍文本。最后一点就是这个正则表达式:

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

使用 .S 选项制作 . 匹配换行符...

于 2010-11-28T03:04:40.937 回答