我正在使用 python 编写一个 web 监控脚本,它将查看页面的存档版本,将其与当前的在线版本进行比较,并在有任何更改时通知我。我有这项工作的基础知识,但是在 Web 表单中具有动态属性的网站遇到了问题。页面一般没有变化,但表单中的隐藏属性发生了变化,这会触发通知。
在两个 HTML 文件上使用 python 的 diflib diff = difflib.unified_diff(content1, content2)
,我能够得到下面的截断输出。
-<input type='hidden' value='contact-us' name='ufo-form-pagename' id='ufo-form-pagename'/><input type='hidden' value='927eea55b8e87e961314033fce84de4a1418504077' name='ufo-sign' id='ufo-sign'/>
+<input type='hidden' value='contact-us' name='ufo-form-pagename' id='ufo-form-pagename'/><input type='hidden' value='1ccb910cbb9dc0d6f6dd5ed99212df741418800872' name='ufo-sign' id='ufo-sign'/>
我想“阅读”这个输出,并返回不具有相同值的 HTML 属性,在这种情况下value='927eea55b8e87e961314033fce84de4a1418504077'
,并且value='1ccb910cbb9dc0d6f6dd5ed99212df741418800872'
我该怎么做呢?