ms-word - HTML Tidy，清理 MS Word 标记

Question

拥有 10 年的归档文章数据，其中大部分都充满了 MS Word save-as-html 标记，例如<p class="MsoNormal">

首先，html 是否可以完成剥离 MS Word 生成的标记的任务，还是我需要采取另一种方法？

其次，前几年的文章按月汇总在一起，并以文本存储类型存储在数据库中。我非常希望将这些分成单独的文章，这样我可以使网站更容易搜索（即当搜索词/短语匹配时不会显示整个月的新闻）。我必须使用的唯一明确的模式来隔离文章是文章标题（粗体，在 16-20 像素之间）和文章日期，通常是 10 像素；标题和日期都出现在文章正文之前。当我没有精确的标记来匹配时，有没有办法检测标记的<h1>-ness 或-ness？<small>

这可能几乎无法回答，但总的来说，您会采取什么方法来完成这项令人羡慕的任务？;-) 我在 Scala 的 JVM 上，但也可以在 LAMP 堆栈上进行清理工作。

想法赞赏！

score 1 · Accepted Answer

如果我是你，我会使用我最喜欢的用于 Perl 的HTML::Parser工具包。如果对于像你这样的复杂和模糊陈述的问题非常好。

ms-word - HTML Tidy，清理 MS Word 标记

1 回答 1

Related

Reference