我想提取维基百科文章的介绍部分(忽略所有其他内容,包括表格、图像和其他部分)。我查看了文章的 html 源代码,但我没有看到这部分包含的任何特殊标签。
谁能给我一个快速的解决方案?我正在编写python脚本。
谢谢
我想提取维基百科文章的介绍部分(忽略所有其他内容,包括表格、图像和其他部分)。我查看了文章的 html 源代码,但我没有看到这部分包含的任何特殊标签。
谁能给我一个快速的解决方案?我正在编写python脚本。
谢谢
啊,关于这个话题已经有一个问题了:
我认为您通常可以通过获取整页,剥离所有表格,然后在标记之后查找 <p>...</p> 块的第一个序列来获得介绍文本。最后一点就是这个正则表达式:
/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/
使用 .S 选项制作 . 匹配换行符...