tags - 与公司 XBRL 提交文件相比，SEC 数据集缺少标签

Question

我正在尝试从 SEC 数据集中获取财务信息，特别是 XBRL 标签：https ://www.sec.gov/dera/data/financial-statement-data-sets.html ，我能够找到大约 328 个标签，89 个非- 重复的。将 sub 与 num 合并，查找 sub_num 文件中的所有标签

company = 1166126
sub_s_f = sub[(sub.cik == company)]`
jcp_num = num[(num.adsh == '0001166126-15-000055')]
jcp_num_tag_list = jcp_num.tag.tolist() 
jcp_num_tag_set = set(jcp_num_tag_list_new)

然而，当我试图在 JCPENNEY 的 XBRL 提交文件中查找所有标签时，ftp://ftp.sec.gov/edgar/data/1166126/0001166126-15-000055.txt。我能找到大约 858 个标签，180 个不重复的标签。

all_tags = soup.find_all(re.compile("\w"), attrs={"unitref":re.compile("\w")})

现在我很困惑，想知道是否有人知道 SEC 在将它们分组到数据集之前是否会消除任何标签。

将不胜感激任何想法或反馈！

score 1 · Accepted Answer

据我了解，SEC 将 num 个文档记录为仅包含数字事实（来自 readme.htm）：

NUM 是主要财务报表上呈现的所有数字 XBRL 事实的数据集

您上面的第二个查询似乎过滤了单位引用，因此也过滤了数字事实。如果我对原始文件进行查询，我还会发现 858 个数字事实（=您所谓的非唯一标签）和 179 个唯一的非抽象数字概念（=非重复数字标签）。因此，这往往表明您的第二个查询是正确的。

所以是的，其中一些标签不在数据集中：有一些数字标签，例如 us-gaap:InterestRateCashFlowHedgeGainLossReclassifiedToEarningsNet 没有出现在 num.txt 中。

进一步看，此标签属于组件：2408405 - 披露 - 股东权益（从累积的其他综合收入/（损失）中重新分类（详细信息）。

现在，SEC 还表示：

财务报表数据集中的数据范围包括 [...] 主要财务报表（资产负债表、损益表、现金流量、权益变动和综合收益）的数字数据和这些报表的页脚注；

所以答案可能是不属于这些主要财务报表的标签被排除在数据集中。

tags - 与公司 XBRL 提交文件相比，SEC 数据集缺少标签

1 回答 1

Related

Reference