我目前正在构建一个全面的多发行版/项目/源代码/OS 开源文档网站。
目前,由于需要从标准手册页获取内容的转换过程,不是不尊重(手册页摇滚),而是标准手册页的神秘格式,我的文本容量为 15GB,并且还在增长。
必须有更现代的源格式,我可以从中获取手册页内容。开发人员还没有为文档编写 50 年前的 *roff 格式文件,是吗?
我迫切需要尽可能多地消除手册页来源,所以到目前为止,如果有任何为这些项目做出贡献的开发人员可以澄清手册页是原始编写的还是从另一种文本格式生成的,作为构建过程的一部分是一个巨大的帮助。就这样进入列表。
我希望不再使用古老的基于 *roff 的 doc 文件的地方:
- 自由BSD
- NetBSD
- OpenBSD
- Debian
- Ubuntu
- 琴图
- 拱
- Slackware(我实际上可以为 slackware 'docs' 使用更好的来源,与其他发行版相比,docs.slackware.com 有点“贫血”)
- 苏塞
- 红帽企业 Linux
因此,作为一个花了很多时间在基于操作系统的文档文件集中与愚蠢的 groff -mandoc 'file' -T html 错误搏斗的程序员,我需要帮助并求助于 SO。
选项 1 是对文档内容的解析更友好的替代来源。
选项 2 是重新格式化手册页内容的更好方法,而不是运行
find . -type f -exec sh -c 'cd $(dirname "$0") && groff -mandoc "$0" -T html > "$0.html"' {} \;
或者
find . -type f -exec sh -c 'cd $(dirname "$0") && man2html "$0" > "$0.html"' {} \;
并希望我不会在数千个文件中遇到一个错误。所有这些也几乎抛弃了 Unicode 多语言支持。
如果在谷歌上搜索涉及“人”和“文档”这两个词的技术内容并不是一项几乎无用的努力,我自己可能已经找到了解决方案,但他们就在这里。