2

拥有 10 年的归档文章数据,其中大部分都充满了 MS Word save-as-html 标记,例如<p class="MsoNormal">

首先,html 是否可以完成剥离 MS Word 生成的标记的任务,还是我需要采取另一种方法?

其次,前几年的文章按月汇总在一起,并以文本存储类型存储在数据库中。我非常希望将这些分成单独的文章,这样我可以使网站更容易搜索(即当搜索词/短语匹配时不会显示整个月的新闻)。我必须使用的唯一明确的模式来隔离文章是文章标题(粗体,在 16-20 像素之间)和文章日期,通常是 10 像素;标题和日期都出现在文章正文之前。当我没有精确的标记来匹配时,有没有办法检测标记的<h1>-ness 或-ness?<small>

这可能几乎无法回答,但总的来说,您会采取什么方法来完成这项令人羡慕的任务?;-) 我在 Scala 的 JVM 上,但也可以在 LAMP 堆栈上进行清理工作。

想法赞赏!

4

1 回答 1

1

如果我是你,我会使用我最喜欢的用于 Perl 的HTML::Parser工具包。如果对于像你这样的复杂和模糊陈述的问题非常好。

于 2012-04-23T18:31:07.687 回答