我正在整理一个网站,其中内容被维护为重组文本,然后转换为 html。我需要比 rst2html.py 更多的控制,所以我使用了我自己的 python 脚本,它使用了类似的东西
docutils.core.publish_parts(source, writer_name='html')
创建 html。
publish_parts() 为我提供了有用的部分,例如标题、正文等。但是,似乎我必须在别处查看以获取 rst 字段的值,例如
:Authors:
:version:
等等。为此,我一直在使用 publish_doctree()
doctree = core.publish_doctree(source).asdom()
然后使用 getElementsByTagName() 递归地进行此操作,如
doctree.getElementsByTagName('authors')
doctree.getElementsByTagName('version')
等等
使用 publish_doctree() 来提取字段可以完成这项工作,这很好,但它似乎比使用例如 publish_parts() 更复杂。我的问题只是这是否是提取这些第一个字段的最佳推荐方法,还是有更直接和不那么复杂的方法?如果没有,那很好,但我想我会询问以防我遗漏了什么。