0

我正在尝试从 SEC 数据集中获取财务信息,特别是 XBRL 标签:https ://www.sec.gov/dera/data/financial-statement-data-sets.html ,我能够找到大约 328 个标签,89 个非- 重复的。将 sub 与 num 合并,查找 sub_num 文件中的所有标签

company = 1166126
sub_s_f = sub[(sub.cik == company)]`
jcp_num = num[(num.adsh == '0001166126-15-000055')]
jcp_num_tag_list = jcp_num.tag.tolist() 
jcp_num_tag_set = set(jcp_num_tag_list_new)

然而,当我试图在 JCPENNEY 的 XBRL 提交文件中查找所有标签时,ftp://ftp.sec.gov/edgar/data/1166126/0001166126-15-000055.txt。我能找到大约 858 个标签,180 个不重复的标签。

all_tags = soup.find_all(re.compile("\w"), attrs={"unitref":re.compile("\w")})

现在我很困惑,想知道是否有人知道 SEC 在将它们分组到数据集之前是否会消除任何标签。

将不胜感激任何想法或反馈!

4

1 回答 1

1

据我了解,SEC 将 num 个文档记录为仅包含数字事实(来自 readme.htm):

NUM 是主要财务报表上呈现的所有数字 XBRL 事实的数据集

您上面的第二个查询似乎过滤了单位引用,因此也过滤了数字事实。如果我对原始文件进行查询,我还会发现 858 个数字事实(=您所谓的非唯一标签)和 179 个唯一的非抽象数字概念(=非重复数字标签)。因此,这往往表明您的第二个查询是正确的。

所以是的,其中一些标签不在数据集中:有一些数字标签,例如 us-gaap:InterestRateCashFlowHedgeGainLossReclassifiedToEarningsNet 没有出现在 num.txt 中。

进一步看,此标签属于组件:2408405 - 披露 - 股东权益(从累积的其他综合收入/(损失)中重新分类(详细信息)。

现在,SEC 还表示:

财务报表数据集中的数据范围包括 [...] 主要财务报表(资产负债表、损益表、现金流量、权益变动和综合收益)的数字数据和这些报表的页脚注;

所以答案可能是不属于这些主要财务报表的标签被排除在数据集中。

于 2016-06-08T08:15:31.470 回答