我正在尝试解析EDGAR 文件——它们是 SEC 文件。具体来说,我正在尝试解析SEC 附表 13D和附表 13G文件。
解析这些文件似乎有很多失败的尝试,我认为这是因为这样做是整个团队必须解决的庞然大物任务。
我的任务是解析这些文件。我们需要整个数据表中的信息。问题是记录在案的文件让我很难区分数据点、表格部分标题等。
到目前为止,我只能从大约 10% 的 Schedule 13D 文件中抓取信息,甚至我抓取的内容也需要大量清理。简而言之,我将正则表达式模式与文本匹配。该模式采用一个已知的(英文)部分标题和下一个(我手动设置)并提取两者之间的内容:例如,CHECK THE APPROPRIATE BOX IF A MEMBER OF A GROUP(.*?)SEC USE ONLY
. 显然,这不会让我走得太远,事实并非如此。使用相同的逻辑,这是我基于以下示例字符串(作为示例)得到的:
示例文本
报告人姓名 IRS ID NOS。上述人员(仅限实体)Robert DePalo 如果是团体成员,请勾选适当的方框(参见说明)(a) (b) SEC 仅使用资金来源(参见说明)如果需要披露法律程序,请勾选方框第 2(d) 或 2(e) 项公民身份或组织所在地美国唯一投票权45,119,857 (1) 共享投票权-0-唯一处置权45,119,857 (1)10.共享处置权-0-11.总金额每个报告人实益拥有 45,119,857 (1)12.如果第 (11) 行中的总金额不包括某些股份(请参阅说明),请勾选方框 13. 第 (11) 行中的金额代表的类别百分比 (2)33.4% (2) 14. 报告人类型(见说明)(1) 由 44,194 人组成,报告人持有 298 股普通股,Arjent Limited UK 持有 925,559 股普通股。报告人是 Arjent Limited UK 的董事长,对其持有的股份具有投票权和投资权。不包括报告人和报告人妻子拥有的实体有权获得的任何类别的优先股,如下文第 6 项所述。(2) 不包括报告人有权获得的投票权如本附表 13D 第 6 项所述,根据 SPHC B 系列优先股。
示例输出
key: CHECK THE | v: (a)    (b)    
key: CITIZENSHI | v: United States
key: CHECK BOX | v:      
key: SHARED VOT | v: -0-
key: PERCENT OF | v: PERCENT OF CLASS REPRESENTED BY AMOUNT IN ROW \(11\)
key: TYPE OF RE | v: TYPE OF REPORTING PERSON \(see instructions\)
key: CHECK BOX | v:     13.
key: SOLE DISPO | v: 45,119,857
key: SEC USE ON | v: SEC USE ONLY
key: SHARED DIS | v: -0
key: SOLE VOTIN | v: 45,119,857
key: NAMES OF R | v: Robert DePalo
key: AGGREGATE | v: 45,119,857 12.
key: SOURCE OF | v: SOURCE OF FUNDS \(see instructions\)
还有其他方法吗?这不适用于大多数 13D 文件,也不适用于 13G。我觉得我的方法有点太天真了,我需要一种通用的方法来解决这样的问题。我希望刮掉至少 80% 的文件中的至少 80%。