在文档处理期间,我想从 html 元数据中提取所有日期,然后确定将用于填充日期字段 (dtgeneric1) 的最新日期。
<meta name="OriginalPublicationDate" content="2010/04/21 12:06:36" />
<meta name="LastModificationDate" content="2010/04/22 14:10:16" />
+ other non-date meta data
使用 spy 阶段的检查表明我们的管道已经添加了 meta_* 属性,但元数据名称在来自不同来源的文档中会有所不同。
#### ATTRIBUTE meta_originalpublicationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/21 12:06:36
#### ATTRIBUTE meta_lastmodificationdate <class 'docproc.DocumentAttributes.TextChunks'>: 2010/04/22 14:10:16
+ other non-date meta attributes
理想情况下,我们希望将所有 meta_* 属性传递给 Python 阶段,并使用它来计算出哪些是日期,哪些是最大的,但似乎没有办法将“所有元属性”指定为输入。
有没有人做过类似的事情,并且可以就最好的方法提供任何建议。
谢谢
尼尔