1

我想从从 Web 获取的 HTML 文件中删除无效字符,以将其更改为 XML 格式。

我无法更改源代码,手动操作也不是一种选择,因为我每天必须处理数百个文件。

在某些 HTML 文件出现一个使代码无效的特殊字符之前,我一直做得很好。

当我加载伪装的 XML 文件时,我从浏览器收到警告

"This page contains the following errors:

error on line 137 at column 1: PCDATA invalid Char value 7
Below is a rendering of the page up to the first error."

在使用文本编辑器挖掘无效字符后,我发现:⟩,一个显然名为:&rang、&lang的字符,这导致了问题。

我试图用 PHP 删除它,但不起作用。

//create arrays 
$find = array ('# #','#list#','#⟩#'); 
$replace = array ('','',''); 

//replace with array values 
$list = preg_replace($find, $replace, $boletin_saveAsXml); 

任何建议将不胜感激:)

4

0 回答 0