python - Python 中的 isalpha() 方法是否识别所有非字母字符？

Question

我有一个名为的文件messages.txt，其中包含许多用行分隔的句子。我试图排除包含非字母字符的行（我只想要那些包含 AZ 字符的行。

import re
import string

lines = [line.rstrip() for line in open('messages.txt', encoding='utf-8')]

cleaned_lines = [s.replace("!", "").replace(".", "").replace("?", "").replace(",", "") for s in lines]

output_lines = []

for line in cleaned_lines:
  if line.replace(' ', '').isalpha() == True:
    output_lines.append(re.sub(r'\W+', '', line.lower()))

chars = sorted(set(('').join(output_lines)))
print(chars)

输出：

['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'ª', 'â', 'ã', 'å', 'ð', 'ÿ', 'œ', 'š', 'ž', 'ƒ', 'ˆ']

可以看出，似乎 isalpha() 方法并没有排除奇怪的

'â', 'ã', 'å', 'ð', 'ÿ'

人物。我有一种感觉，这可能是由于正在读取文件的编码，但是，我认为 isalpha 方法与模式 RegEx 结合应该能够过滤掉这些字符。

这是故意的吗？如果是这样，有什么方法可以去除这些奇怪的字符？

score 0 · Accepted Answer

根据我使用 UTF-8 编码的 Python 脚本进行的本地测试，isalpha()对于包含带有重音符号的字符的输入返回 false：

# -*- coding: utf-8 -*-
inp1 = "Hello"
inp2 = "Hållo"
print(inp1.isalpha())  # True
print(inp2.isalpha())  # False

在任何情况下，如果您想过滤掉任何包含非 ASCII 字母数字字符的行，那么只需re.search在您的初始列表理解中使用：

lines = [line.rstrip() for line in open('messages.txt', encoding='utf-8') if not re.search(r'[^A-Za-z0-9]', line)]

score 0 · Accepted Answer

当您读取编码为 UTF-8 的文件时：

lines = [line.rstrip() for line in open('messages.txt', encoding='utf-8')]

中的数据lines是 Unicode 字符串。根据所使用的操作系统/编辑器，重音字符可以“组合”（对某些重音字母使用单个代码点）或“分解”（使用两个代码点，一个字母和一个组合重音）。

您可以强制使用适合您的表单：

import unicodedata as ud
inp = "Hello",ud.normalize('NFC',"Hållo"),ud.normalize('NFD',"Hållo")
for i in inp:
    print(i,ascii(i),i.isalpha(),i.isascii())

输出。请注意，该ascii()函数将附加显示a为单个代码点\xe5或对a\u030a：

Hello 'Hello' True True
Hållo 'H\xe5llo' True False
Hållo 'Ha\u030allo' False False

要仅查找 ASCII 字母，请同时使用isalpha()和进行测试isascii()。

python - Python 中的 isalpha() 方法是否识别所有非字母字符？

2 回答 2

Related

Reference