2

我有一个看起来很正常的字符串(如果有任何区别,则取自 MySQL 数据库):

Manufacture: <a href="http://www.x.com/">Blah</a>

问题是标签之间的空间Manufacture:<a>一个 194 的字符码,而不是我期望的 32。

这导致preg_match具有以下模式的 a 失败(请忽略使用正则表达式解析 HTML 的尝试,我知道这不是一个好主意,但这个特定的数据集是可以预测的,足以摆脱它):

/Manufacture: *(<a[^>]*>([A-Za-z- 0-9]+)<\/a>)/i

如果我在文本编辑器中用普通空格字符替换流氓空格并重试,表达式会按预期匹配,但我需要以编程方式对其进行更改。

我试过str_replace

$text = str_replace(chr(194), ' ', $text);

preg_match仍然失败。然后我尝试了preg_replace

$text = preg_replace('/[\xC2]/', ' ', $text);

但这也不起作用,即使运行相同的模式preg_match 确实包含预期的匹配。

有没有人有任何想法?

4

2 回答 2

4

您能否检查一下您从中获取 $text 内容的 MySQL 表的结构?如果排序规则是utf8_general_ci或类似的,那么您的字符串很可能包含双字节 UNICODE 字符。

在此处输入图像描述

如果是这种情况,那么 PHP 函数iconv应该可以解决问题。这是 PHP 手册中的示例。该IGNORE选项应从字符串中删除 UNICODE 字符。

<?php
$text = "This is the Euro symbol '€'.";

echo 'Original : ', $text, PHP_EOL;
echo 'TRANSLIT : ', iconv("UTF-8", "ISO-8859-1//TRANSLIT", $text), PHP_EOL;
echo 'IGNORE   : ', iconv("UTF-8", "ISO-8859-1//IGNORE", $text), PHP_EOL;
echo 'Plain    : ', iconv("UTF-8", "ISO-8859-1", $text), PHP_EOL;

?>

上面的示例将输出类似于:

Original : This is the Euro symbol '€'.
TRANSLIT : This is the Euro symbol 'EUR'.
IGNORE   : This is the Euro symbol ''.
Plain    :
Notice: iconv(): Detected an illegal character in input string in .\iconv-example.php on line 7
This is the Euro symbol '
于 2012-08-11T18:35:17.683 回答
0

如果您尝试匹配任何空白字符怎么办?
像这样:

/Manufacture:\s*(<a[^>]*>([A-Za-z- 0-9]+)<\/a>)/i
于 2012-08-11T15:53:18.300 回答