我最近尝试将一堆博客文章从旧博客 (SharePoint) 导入到我当前的博客 (WordPress)。导入完成后,许多讨厌的<div>
标签和其他 HTML 进入帖子的内容,这搞砸了我的网站呈现方式。
我能够查看 MySQL 数据库中的违规行,并想知道是否有办法选择性地删除可能导致问题的 HTML 文本。 我可能可以通过解析文本在 C# 中破解它,但我想弄清楚如果可以的话,我如何使用 SQL 来做到这一点。
如果您想查看其中一个文件在数据库文本字段中的样子的全文示例,我将完整的示例文件上传到我的网站。
这是我想做的事情:
<![CDATA[<div><b>Body:</b>
从每个文件的开头删除删除每个文件末尾的元信息,可能如下所示:
<div><b>Category:</b> SharePoint</div> <div><b>Published:</b> 11/12/2007 11:26 AM</div> ]]>
删除每一个
<div>
和结束</div>
标记,它可能有一个类属性,如:<div class=ExternalClass6BE1B643F13346DF8EFC6E53ECF9043A>
注意:ExternalClass 末尾的十六进制字符串可以不同
我以前没有在 MySQL 中使用过 Update 语句,我不知道从哪里开始有选择地替换文本字段中的文本。我会在 SQL 语句中使用正则表达式来提供帮助吗?我将如何对远程数据库执行语句?