php - 将 " " 字符解析为空格

Question

我正在为一个客户开发一个项目，我需要从他们的旧 HTML 页面解析数据以获得更有效的存储。数据以这种基本格式出现，在一行上有多个键/值对。

 Key1: Value1 Key2: Value2...

我能够使用 95% 的记录preg_match_all('/\w+:\s+\S+/', $line, $items)

我遇到的问题是少数行包含如下文本：

 Key1: Value1&nbsp;Key2: Value2

在这种情况下，我的脚本显示 Value1 = Value1 Key2:。

我尝试 使用html_entity_decode($line)和替换字符串str_replace(' ', ' ', $line)。两者都有，我的输出中仍然有 字符，并且没有正确解析字符串。

我要解析的页面是 WordPress 页面。检查wp_post页面的记录显示 字符串存储在数据库中。我相信这些页面是通过 MS_Access 的导出填充的。在我的脚本前面，我已经通过了的父$line级$strip_tags()。

有没有可靠的方法来消除/过滤/替换这个 字符串？

score 1 · Accepted Answer

在这个问题上，我已经把头撞在墙上好几天了，终于找到了答案。我测试了其他人给出的每一个答案。没有工作。-1 适合所有人！

将 作为 Unicode 字符串存储在数据库中。它仅 在浏览器中呈现时显示。这将其删除。

$line = str_replace("\xC2\xA0", " ", $line);

1 回答 1