2

我有未知数量的文件散布着垃圾数据,我想动态删除所述垃圾数据,可能使用正则表达式。

在浏览器的 HTML 文件中,它通常看起来像这样:

这是文件的开头,��

在文件中,它将如下所示:

这是文件的开头,xE2 xA0

我尝试使用正则表达式编辑器将其删除,但无济于事,它根本找不到它。如何删除这些垃圾数据?同样,一些文件具有各种 HTML 标记。

感谢您的任何帮助。

4

2 回答 2

4

这些出现是因为您网站上的字符集有问题。

例如,您的文件以 Unicode 格式存储,但您的 Content-Type 设置为text/html; charset=ISO-8859-1. 问题也可能是文本如何存储在您的数据库中,或者文本如何在您的编程语言内部表示。

与其尝试去除它们,不如让字符集正确。这通常是一个令人沮丧的过程,因为有很多地方可能会引入问题。

你没有说你使用什么技术。一般可以通过“字符集问题mysql”等具体技术搜索如何解决字符集问题,找到解决方法。

我建议使用命令行工具,例如file检查文本文件存储在哪个字符集中iconv,并将文本文件从一个字符集转换为另一个字符集。

于 2013-03-08T15:20:31.157 回答
3

有两种可能性。第一个不太可能是0xe2 0xa0 ...因为文档中有盲文模式

至于第二种可能性,0xa0NBSP0xe2让我想起ISO-8859-5

是否有人从某些软件包的俄语版本中复制和粘贴内容?

此外,您可以在 Windows 上获取和使用 iconv

于 2013-03-08T16:28:50.097 回答