拥有 10 年的归档文章数据,其中大部分都充满了 MS Word save-as-html 标记,例如<p class="MsoNormal">
首先,html 是否可以完成剥离 MS Word 生成的标记的任务,还是我需要采取另一种方法?
其次,前几年的文章按月汇总在一起,并以文本存储类型存储在数据库中。我非常希望将这些分成单独的文章,这样我可以使网站更容易搜索(即当搜索词/短语匹配时不会显示整个月的新闻)。我必须使用的唯一明确的模式来隔离文章是文章标题(粗体,在 16-20 像素之间)和文章日期,通常是 10 像素;标题和日期都出现在文章正文之前。当我没有精确的标记来匹配时,有没有办法检测标记的<h1>
-ness 或-ness?<small>
这可能几乎无法回答,但总的来说,您会采取什么方法来完成这项令人羡慕的任务?;-) 我在 Scala 的 JVM 上,但也可以在 LAMP 堆栈上进行清理工作。
想法赞赏!