我最近很高兴地发现 Bigquery 托管了SEC 文件的数据集。但是,我无法在数据集中找到文件的实际文本!这似乎很明显,我一定错过了一些东西。
例如,在 SEC 网站上提交的 2018 年 Microsoft 10-K 文件本身可以看到 10-K 文本,其中第 7 项包括“管理层对财务状况和结果的讨论和分析”。我在数据集中搜索了这个短语。
首先,以下查询应该从该文件中提取所有文本:
SELECT *
FROM `bigquery-public-data.sec_quarterly_financials.txt`
WHERE submission_number="0001564590-18-019062"
但是,当搜索上述短语时,此查询的结果一无所获。
基于另一个 StackOverflow 答案的第二次尝试给了我这个,我尝试在整个数据集中搜索该短语,以防它存储在不同的表中:
SELECT *
FROM `bigquery-public-data.sec_quarterly_financials.*` t
WHERE REGEXP_CONTAINS(LOWER(TO_JSON_STRING(t)), r'/^discussion and analysis of financial condition$/')
没有结果!
我可以清楚地找到相同的 SEC 文件,但其中的内容似乎丢失了。我也搜索了其他短语和部分,文本似乎不存在。然而,基于我认为应该的所有谷歌文档。我错过了什么?
或者,有人知道解析 SEC 10-K 文件等部分的其他来源吗?这也很有用,您也可以用它来回答这个问题。