regex - 使用python中的正则表达式从html标签获取日期

Question

我正在尝试获取日期

XXX='<div class="document-published-date">
                                July 14, 2018
                            </div>'

我期待这样的事情会起作用

re.search('>(.*?)</div>',XXX)

但我得到一个空的结果。

score 1 · Accepted Answer

默认情况下，点不匹配新行。您需要使用 (?s) 标志来启用点以匹配新行。您还需要]像这样稍微更正您的正则表达式（在您的正则表达式'>（。*？）]'的末尾删除），

(?s)>\s*(.*?)\s*</div>

解释：

score -1 · Accepted Answer

定期使用这样的正则表达式可能不是一个好主意。您可以改为使用htmldate之类的模块来提取 HTML 文档的日期（免责声明：我是作者），它的工作原理如下：

1.安装包：

pip/pip3/pipenv (your choice) -U htmldate

2. 检索网页，解析并输出日期：

from htmldate import find_date

find_date('http://blog.python.org/2016/12/python-360-is-now-available.html')

2 回答 2