有发音的单词。无论如何,我有兴趣只提取第一个单词
A AH0
A'S EY1 Z
A(2) EY1
A. EY1
A.'S EY1 Z
A.S EY1 Z
A42128 EY1 F AO1 R T UW1 W AH1 N T UW1 EY1 T
AAA T R IH2 P AH0 L EY1
AABERG AA1 B ER0 G
AACHEN AA1 K AH0 N
AAKER AA1 K ER0
AALSETH AA1 L S EH0 TH
AAMODT AA1 M AH0 T
AANCOR AA1 N K AO2 R
AARDEMA AA0 R D EH1 M AH0
我试过了regex= r"(\A[A-Z]+\b) | (\A[A-Z\'w]+\b)"
\A :仅匹配字符串的开头。
I still dont get the regex.
I have few conditions:
1. No starting whitespace - can be \s
2. (\A[A-Z\'w]+\b) in this:
\b :再次来自http://docs.python.org/2/library/re.html我认为这就像一个边界 b/w 字母数字和非字母数字。
What is happening is these are being collected:
('A', ' ')
('A', ' ', 'B', 'E', 'G', 'R') is actually AABERG
('A', ' ', 'C', 'E', 'H', 'N') AACHEN
('A', ' ', 'C', 'O', 'N', 'R')
('A', ' ', 'D', 'M', 'O', 'T')
('A', ' ', 'E', 'D', 'M', 'R')
('A', ' ', 'E', 'H', 'L', 'S', 'T')
('A', ' ', 'K', 'R', 'E') AAKER
我将它们收集为元组列表(一个单词作为元组中的单个字母)现在这就是我正在做的事情。问题是我看到当重复字母 A 在这里重复多次时:不包含“A”,而是添加了“”空白。怎么了?我只想在这里提取第一个起始词,not A(2) or whitespaces or (,),[,] or any other symbolic character except for "'\'"
这就是为什么我想添加 [AZ\'w]
另外,如果有人可以告诉我如何添加多个条件,可以说
regex= r"(\A[A-Z]+\b) | (\A[A-Z\'w]+\b) | ^\A[A-Z]+\b"
这个工作 ^\A[AZ]+\b" 在提取或 ^\A[AZ]+\s" 这更好吗?我很困惑。
更新
如果我也想要类似的东西
;Semi-colon
A.S
.Dot
要r'[^\SA-Z\\]+
上班了吗?这'\\'
取自 Inbar Rose 下面的解决方案。仍在弄清楚那是做什么的