我想将 HTML 转换为纯文本,但保留最小结构。
- 所有仅包含浏览器需要查看的内容的部分,例如 <script> 和 <style> 都将被完全剥离。
- 将所有块标记转换为 <div> 并将所有内联标记转换为 <span>或完全删除内联而不留下空格并将块级别描述的任何内容转换为具有两个换行符的段落。
这个想法是将随机网页变成适合自然语言文本处理的东西,而不会因为天真地删除标记而人为地分解单词或使不相关的块看起来像句子而留下人工制品。
任何编程语言中的任何二进制文件、库或源代码都可以。
是否有一个标准源,最好是机器可读的,其中包含定义哪些是块、哪些内联以及哪些类似于上面的 <script> 和 <style> 的完整元素列表?