0

全部,我有一个来自美国证券交易委员会的 RSS 提要,公司名称如下;例如,

10-Q - What ever INC (0000123456)(备案人)

所以一般结构是:

form_name + whitespace + dash + whitespace + company_name + " (" + SIC_Number + ") (Filer)"

我需要提取company_nameSIC_Number。请注意,form_name 可以有破折号,公司名称可以有空格和破折号。这可以通过对破折号使用 re.split 函数来完成(我正在使用 python),然后再对括号使用,但它很难看(为了完整性而显示):

m = re.split('[()]',re.split(' - ',str)[-1])

正确的正则表达式是什么?

4

1 回答 1

1

如果公司名称不包含字符串“ - ”,则 SIC 编号只是数字,并且在左括号前有一个空格,这就是您要查找的内容:

m = re.search(r' - ([^(]+?) \((\d+)\)',t)
于 2013-09-13T04:01:07.870 回答