0

我正在为一个客户开发一个项目,我需要从他们的旧 HTML 页面解析数据以获得更有效的存储。数据以这种基本格式出现,在一行上有多个键/值对。

 Key1: Value1 Key2: Value2...

我能够使用 95% 的记录preg_match_all('/\w+:\s+\S+/', $line, $items)

我遇到的问题是少数行包含如下文本:

 Key1: Value1 Key2: Value2

在这种情况下,我的脚本显示 Value1 = Value1 Key2:

我尝试 使用html_entity_decode($line)和替换字符串str_replace(' ', ' ', $line)。两者都有,我的输出中仍然有 字符,并且没有正确解析字符串。

我要解析的页面是 WordPress 页面。检查wp_post页面的记录显示 字符串存储在数据库中。我相信这些页面是通过 MS_Access 的导出填充的。在我的脚本前面,我已经通过了的父$line$strip_tags()

有没有可靠的方法来消除/过滤/替换这个 字符串?

4

1 回答 1

1

在这个问题上,我已经把头撞在墙上好几天了,终于找到了答案。我测试了其他人给出的每一个答案。没有工作。-1 适合所有人!

 作为 Unicode 字符串存储在数据库中。它仅 在浏览器中呈现时显示。这将其删除。

$line = str_replace("\xC2\xA0", " ", $line);
于 2013-05-03T18:31:12.390 回答