-1

我正在尝试解决python(2.7)中的“简单”问题。假设我有两个文件:

key.txt - 有一个要搜索的键。content.txt - 包含网页内容(html 文件)

两个文件都保存在 utf-8 中。content.txt 是混合文件,这意味着它包含非英文字符(web html 文件)

我正在尝试检查是否在内容中找到 key.txt 文件中的密钥。尝试将文件比较为二进制(字节)不起作用,也尝试解码不起作用。

我也将不胜感激有关如何搜索混合的正则表达式的任何帮助(我的模式是由英语和非英语字符构建的)

4

1 回答 1

0

您应该通过在开头添加以下语句来让 python 解释器知道您正在使用 utf-8 编码:

# encoding: utf-8

然后您可以使用u'yourString'来指示该字符串是一个 unicode 字符串。

示例代码:

text = u'someString'
keyString = u'someKey'
f = re.findall(keyString, text)

您可能需要对字符串使用 encode('utf-8') 方法,同时对这些字符串执行一些其他操作

于 2013-09-12T20:19:03.373 回答