6

我刚刚接触了 Stackoverflow数据转储,我很失望地看到帖子的 Body 字段是 HTML 而不是 Markdown。我怀疑原始数据库中有 Markdown,因为这就是我尝试编辑答案时看到的。

我想从大量答案中恢复 Markdown。我将使用命令行工具或某种 Lua 或 C 库以批处理模式处理数百个条目,因此像wmd Markdown 编辑器这样的交互式工具不适合。人们能说 一下有哪些工具可以帮助我从 Stackoverflow 数据转储中恢复 Markdown 吗?


(相关问题,不重复:在 wmd 中将 HTML 转换回 Markdown。)

4

2 回答 2

5

Markdownify将 HTML 转换为 Markdown。

另请参阅: MetaSO / Markdown 可以从 SO 数据转储中恢复吗?

于 2009-08-20T17:26:54.453 回答
2

看看 pandoc:http: //johnmacfarlane.net/pandoc/

pandoc 包含一个 html2markdown 工具,效果很好,程序从命令行运行,使批量转换非常好。

这是手册页:http: //johnmacfarlane.net/pandoc/html2markdown.1.html

于 2009-09-15T16:37:43.283 回答