全部,我有一个来自美国证券交易委员会的 RSS 提要,公司名称如下;例如,
10-Q - What ever INC (0000123456)(备案人)
所以一般结构是:
form_name + whitespace + dash + whitespace + company_name + " (" + SIC_Number + ") (Filer)"
我需要提取company_name和SIC_Number。请注意,form_name 可以有破折号,公司名称可以有空格和破折号。这可以通过对破折号使用 re.split 函数来完成(我正在使用 python),然后再对括号使用,但它很难看(为了完整性而显示):
m = re.split('[()]',re.split(' - ',str)[-1])
正确的正则表达式是什么?