当公司向 SEC 提交报告时,会提供一些文件。例如最新的 10-K 的AAPL。由此,甚至 SEC 网站(以及许多其他网站)也将表格制作为结构化数据。
我想做的是自己复制它,但被卡住了。有人可以向我指出详细的分步说明如何做到这一点吗?
通常 SO 用户会询问更具体的问题和 OP 尝试过的事情列表,所以,这就是我尝试过的,我理解的:
- 底部的六个文件(示例中的 8-12、15)已使用所有数据。基本上,公司提交的 8-12 和 15 是文件本身的内联 Xbrl 的摘录(示例中的 1)。
- 提取文件 (15) 列出了所有 Xbrl 实例和所有上下文。非常清楚。
- XSD 文件 (8) 包含所有表格和所有公司特定元素的列表。第一个在 link:roleType 块中给出,给出一个定义和它出现的链接库列表(尽管有时它们不出现)。第二个以 <xs:element>-s 的形式给出。
- 演示文件 (12) 具有相同的表格列表。
- 定义 (10) 和标签 (11) 链接库应该给出更多细节,例如特定数据的公司特定标签。
- 计算链接库并不是真正需要的(我猜),它更多的是验证总数确实是如何计算的。
我不明白的是:
- 从这些文件构建表的正确方法是什么?是通过查看 XSD/PRE 表单并在提取文件中找到它们的数据还是相反?
- 无论我多么努力,我都找不到提取文件中的数据点和 LAB 文件中的标签之间的链接(包含所有定位器和弧)。作为人类,它“容易”,但作为机器,名称总是略有不同(例如(a)loc_XYZ 更改为lab_XYZ;(b)名称“XYZ”有自己的版本和“XYZAbstract”版本, (c) 像 XYZ 这样的名称附有数字 XY_123),因此我无法建立“两端”之间的联系。
这就是为什么我想要一步一步的解释,比如:
- 拿文件……先。那里遍历 <...> 标签。对于每个标签,在文件 ... 中找到一个 <...> 标签,其中属性 ... 等于迭代标签的 ... 属性。等等。
谢谢,
PS(我对已经这样做的可用软件和服务不感兴趣,也不对某些特定的库调用。我只是想使用纯文本文件提取信息。)