问题标签 [edgar]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1966 浏览

webserver - Arelle Webserver - 如何从 XBRL 文件中提取损益表?

我正在尝试根据报表类型提取财务报表信息。

让我更详细地向您解释一下。

我想从 XBRL 实例中提取损益表、资产负债表和现金流量表——尤其是 US GAAP。

对我来说,完美的解决方案是在 XML 文件中添加标签,这样我就可以提取带有标签的损益表、带有标签<incomestatement>的资产负债表和带有 的<balancesheet>现金流量表<cashflow>

请在这里帮助我。我是一个新手,在 XBRL 方面没有太多背景。

0 投票
2 回答
615 浏览

perl - 从 SEC 网站高效下载 10-K 文件

我使用以下 perl 代码从 SEC 网站大量下载 10-Ks。但是,我得到一个“内存不足!” 当脚本在处理一个特别大的 10-K 文件时明显卡住时,每隔几百个文件发送一条消息。任何想法如何避免这种“内存不足!” 大文件出错?

0 投票
1 回答
525 浏览

beautifulsoup - 如何使用 beautifulsoup 定位
在其子项中包含文本

嗨,我正在从 SEC EDGAR 下载的代理声明中抓取信息。我想知道如何通过“DIRECTOR COMPENSATION”中的字符串在上面找到漂亮的汤?我正在尝试为像这个这样的其他网页制作一个通用代码,所以我必须依赖关键字。

非常感谢!

0 投票
1 回答
99 浏览

regex - SAS 正则表达式代码从 10-K 公司文件中捕获业务地址

考虑以下 EDGAR 10-K SEC 公司备案 https://www.sec.gov/Archives/edgar/data/912382/000136231009004179/0001362310-09-004179.txt

我需要 SAS 中的正则表达式来捕获商业地址下的字段 STREET 1、STREET 2、CITY、STATE 和 ZIP,但不是邮寄地址。例如,对于 STREET 1,我STREET\s2\s*(.*)在 SAS 中使用,但它最终捕获了 STREET 1 作为邮寄地址。谢谢!

0 投票
1 回答
229 浏览

python - 如何从 SEC 10-Ks 中抓取单个段落

我正在做一个项目,我需要将 10-K 分解成它们的组成段落。对于某些 10-K,我可以做一些简单的事情,例如soup.find_all('p'),但我也看到其他 10-K<div>用于所有内容而不是<p>标签。以下是我看到公司声明断句的三种不同方式:

使用空 div 标签在段落之间创建空间的情况:

在顶部或底部使用边距/填充来创建空间的情况:

<br>公司使用标签的案例:

我不得不为这三种情况中的每一种情况编写新代码,并且我担心可能有其他方法来标记我尚未遇到的段落。

问题:我是否可以使用包或方法来标准化所有这些声明断句的不同方式,或者我应该继续为遇到的每个新案例编写代码?

0 投票
2 回答
249 浏览

r - 埃德加包 | .txt 文件的问题

预先感谢您的意见。

我的问题是getSentimentCount(word.frq, words.list)edgar 包的功能。该函数应该读取word.list哪个是 .txt 文件并比较另一个现有列表的内容(word.frq),也是一个 .txt 文件。

这适用于一个单词之间没有空格的 .txt 文件,但 R 仍然可以像有(计数 > 1)一样读取该文件。如果每个单词后有一个新行,则可以读取另一个文件(计数> 1),但会导致getSentimentCount(word.frq, words.list)函数错误。如果 .txt 文件中删除了新行并将所有单词放在一行中(与其他文件一样),则 R 只能读取一个单词(基本上是一行中的所有单词)并且 count = 1。

R 区分不同类型的 .txt 文件吗?

链接到两个 .txt 文件。negwords.txt工作,litwords.txt导致错误。

我很感激任何意见。

0 投票
1 回答
293 浏览

python - 如果存在两个表,则 Pythonic 计数和抓取以跳过第一个表

我正在尝试从 SEC 文件中获取 .xml 数据。它在第二张桌子上。 但是,如果我进入一个没有 .xml 的页面,我想要 html 版本,第一个和唯一的表。 有人可以帮我理解如何迭代或跳过第一个表,如果有两个表,如果只有一个表,则在第一个表中获取第一个 a['href']?

0 投票
0 回答
647 浏览

python - 使用 Arelle 导出 XLSX 文件

我正在尝试使用Arelle从 XBRL 文件的 zip 中导出 XLSX 文件。当我使用EdgarRenderer插件时它工作得很好。

./arelleCmdLine -f data/goog-20151231.xml.zip --plugins EdgarRenderer --disclosureSystem efm-pragmatic --validate -r /home/out/

这会产生一个 Financial_Report.xlsx 文件,这正是我想要的。我正在尝试在不生成其他 HTML 文件的情况下执行此操作。我找到了插件saveLoadableExcel但我不确定命令行参数是如何工作的。我尝试了以下 -

./arelleCmdLine -f data/goog-20151231.xml.zip --plugins saveLoadableExcel.py --save-loadable-excel --validate -r /home/out/

但我收到以下错误 -

[info] 插件Save Loadable Excel激活成功,0.9版。- saveLoadableExcel.py [info] 在 2017-12-15T12:43:09 在 6.58 秒内加载 - /home/data/goog-20151231.xml.zip/goog-20151231.xml [info] 在 9.68 秒内验证 - /home /data/goog-20151231.xml.zip/goog-20151231.xml [异常:saveLoadableExcel] 文件保存异常:'bool' 对象没有属性 'write' - goog-20151231.xml 异常忽略:> Traceback(最近最后调用):文件“/usr/lib/python3.5/zipfile.py”,第 1595 行,在del 文件“/usr/lib/python3.5/zipfile.py”,第 1608 行,关闭文件“/usr /lib/python3.5/zipfile.py”,第 1711 行,在 _write_end_record 文件中“/usr/lib/python3.5/zipfile.py”,第 680 行,写入 AttributeError: 'bool'

如何只导出excel文件?谢谢。

0 投票
1 回答
72 浏览

python - Python 出现 SSL 错误,但服务器测试给出所有 A+ 评级

去年,我编写了一个 Python 脚本来查询 SEC 的 EDGAR 数据库,以检索他们不同年份和季度的公司文件索引。当时,该脚本运行良好,但我最近将其备份,却发现现在我在运行时收到 SSL: CERTIFICATE_VERIFY_FAILED 错误。

我在以下路径上进行了 SSL 服务器测试: https ://www.sec.gov/Archives/edgar/full-index/2018/QTR2/company.idx

报告显示证书的所有通行证(链接在这里)

同样有趣的是,如果您直接导航到浏览器中的路径,则会返回“拒绝访问”错误。如果我没记错的话,过去这会导致下载索引文件。我知道 SEC 的 EDGAR 数据库最近经历了一些重组,因为它们不再支持 FTP 服务。

有谁知道这里可能发生了什么以及为什么我会收到 SSL 错误?

对于进一步的背景,我正在使用 urllib.request.urlopen()

提前致谢。

0 投票
1 回答
131 浏览

xbrl - 从 XBRL 文档中检索 EBIT

不同 XBRL 文档的息税前利润信息似乎不是很统一。

与其他来源(例如雅虎)交叉比较数据,我看到一些 XBRL 在us-gaap:OperatingIncomeLoss使用 US-GAAP 或ifrs-full:ProfitLossBeforeTax使用 IFRS 时使用事实来存储它。

但是,有时看起来他们也使用us-gaap:IncomeLossFromContinuingOperationsBeforeIncomeTaxesMinorityInterestAndIncomeLossFromEquityMethodInvestmentsor us-gaap:IncomeLossFromContinuingOperationsBeforeIncomeTaxesExtraordinaryItemsNoncontrollingInterest

有时其中许多实际上填充了不同的值,因此无法知道哪个是正确的。

是否有更可靠的方法来检索 EBIT 数据?