我正在尝试从 SEC 数据集中获取财务信息,特别是 XBRL 标签:https ://www.sec.gov/dera/data/financial-statement-data-sets.html ,我能够找到大约 328 个标签,89 个非- 重复的。将 sub 与 num 合并,查找 sub_num 文件中的所有标签
company = 1166126
sub_s_f = sub[(sub.cik == company)]`
jcp_num = num[(num.adsh == '0001166126-15-000055')]
jcp_num_tag_list = jcp_num.tag.tolist()
jcp_num_tag_set = set(jcp_num_tag_list_new)
然而,当我试图在 JCPENNEY 的 XBRL 提交文件中查找所有标签时,ftp://ftp.sec.gov/edgar/data/1166126/0001166126-15-000055.txt。我能找到大约 858 个标签,180 个不重复的标签。
all_tags = soup.find_all(re.compile("\w"), attrs={"unitref":re.compile("\w")})
现在我很困惑,想知道是否有人知道 SEC 在将它们分组到数据集之前是否会消除任何标签。
将不胜感激任何想法或反馈!