我遇到了这个问题。我正在尝试更好地处理 RE,但它不起作用。我有一个字符串列表,如果在另一个字符串中找到它们,我想删除它们。
这是排除列表:
exclusionList = ['\+','of','<ET>f.','to','the','<L>L.</L>','f.','in','and','see','a','<L>Fr.</L>','as','<ET>ad.','<ET>a.','<PS>v.</PS></XR>',
'from','<CF>ab</CF>','or','n.','<L>OFr.</L>','pple.','away','was','with','off,','pa.','on','is','cf.','stem','ad.','which',
'by','action','ppl.','Cf.','but','<L>Gr.</L>','be','after','=','The','form','for','an','<XR><RX>prec.</RX></XR>',
'<PS>a.</PS></XR>','<L>Eng.</L>','<PS>pref.</PS>','also','L.</L>','<XR><XL>a-</XL>','<XR><XL>-ing</XL><HO>1</HO></XR>.</ET>',
'vb.','See','In','<L>OE.</L>','used','it','see','this','not','<PS>prep.</PS><HO>1</HO></XR>','has','a','so','early','s']
这就是我用来删除这些词的方法:
first_word = re.sub(r'\b'+exclusionList[a]+'\b', '',first_word)
其中第一个单词是从文本文件中读取的字符串。我知道这会很简单,但我只是不太了解如何很好地使用 RE。
谢谢