我有未知数量的文件散布着垃圾数据,我想动态删除所述垃圾数据,可能使用正则表达式。
在浏览器的 HTML 文件中,它通常看起来像这样:
这是文件的开头,��
在文件中,它将如下所示:
这是文件的开头,xE2 xA0
我尝试使用正则表达式编辑器将其删除,但无济于事,它根本找不到它。如何删除这些垃圾数据?同样,一些文件具有各种 HTML 标记。
感谢您的任何帮助。
这些出现是因为您网站上的字符集有问题。
例如,您的文件以 Unicode 格式存储,但您的 Content-Type 设置为text/html; charset=ISO-8859-1
. 问题也可能是文本如何存储在您的数据库中,或者文本如何在您的编程语言内部表示。
与其尝试去除它们,不如让字符集正确。这通常是一个令人沮丧的过程,因为有很多地方可能会引入问题。
你没有说你使用什么技术。一般可以通过“字符集问题mysql”等具体技术搜索如何解决字符集问题,找到解决方法。
我建议使用命令行工具,例如file
检查文本文件存储在哪个字符集中iconv
,并将文本文件从一个字符集转换为另一个字符集。
有两种可能性。第一个不太可能是0xe2 0xa0 ...
因为文档中有盲文模式。
至于第二种可能性,0xa0
是NBSP
。0xe2
让我想起ISO-8859-5。
是否有人从某些软件包的俄语版本中复制和粘贴内容?
此外,您可以在 Windows 上获取和使用 iconv。