我正在为一个客户开发一个项目,我需要从他们的旧 HTML 页面解析数据以获得更有效的存储。数据以这种基本格式出现,在一行上有多个键/值对。
Key1: Value1 Key2: Value2...
我能够使用 95% 的记录preg_match_all('/\w+:\s+\S+/', $line, $items)
我遇到的问题是少数行包含如下文本:
Key1: Value1 Key2: Value2
在这种情况下,我的脚本显示 Value1 = Value1 Key2:
。
我尝试
使用html_entity_decode($line)
和替换字符串str_replace(' ', ' ', $line)
。两者都有,我的输出中仍然有
字符,并且没有正确解析字符串。
我要解析的页面是 WordPress 页面。检查wp_post
页面的记录显示
字符串存储在数据库中。我相信这些页面是通过 MS_Access 的导出填充的。在我的脚本前面,我已经通过了的父$line
级$strip_tags()
。
有没有可靠的方法来消除/过滤/替换这个
字符串?