问题标签 [edgar]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
272 浏览

r - 无法从 EDGAR 平台检索公司记录

我正在尝试使用以下代码从 EDGAR 平台检索公司信息:

但是,我收到以下错误:

我检查了 CIK 代码以及网站 www.sec.gov,一切看起来都还不错。

任何帮助,将不胜感激。

0 投票
0 回答
340 浏览

python - 使用 Python 计算 SEC Edgar 10-K 文件正文中的关键字

我正在尝试在 Python 3 中解析 SEC Edgar 文本的文本部分,例如:https ://www.sec.gov/Archives/edgar/data/796343/0000796343-14-000004.txt

我的目标是收集某些关键字的 10-K 语句的可见文本正文中的出现次数并将它们保存到字典中(即,我对任何表格、展览等都不感兴趣)。

我对 Python 很陌生,如果有任何帮助,我将不胜感激!

这是我到目前为止所写的,但是这里的代码没有返回正确的出现次数,并且它没有捕获最终用户可见的主要文本正文。

0 投票
1 回答
146 浏览

parsing - 将 SEC 10-K 年度报告文本保存到文件(解码问题)

我正在尝试从 10-K SEC Edgar 报告中批量下载“最终用户”可见的文本(不关心表格)并将其保存在文本文件中。我在 Youtube 上找到了下面的代码,但是我面临两个挑战:

  1. 我不确定我是否正在捕获所有文本,当我从下面打印 URL 时,我收到了非常奇怪的输出(特殊字符,例如,在打印输出的最后)

  2. 我似乎无法将文本保存在txt文件中,不确定这是否是由于编码(我对编程完全陌生)。

0 投票
2 回答
254 浏览

r - XBRL R 包读取添加另一个链接到输入链接。导致无法打开的链接

我正在使用 XBRL 包从 SEC EDGAR 网站导入 XBRL 数据,每当我使用 xbrlDoAll 函数时,即使我提供了有效的 URL,它也无法读取 URL。例如,要复制此错误,请使用以下命令:

这是我得到的错误:

如您所见,无法打开 URL,因为由于某种原因,它在链接中间添加了另一个 https:// 以获取文件。

https://www.sec.gov/Archives/edgar/data/320193/000032019318000145/https://xbrl.sec.gov/dei/2018/dei-2018-01-31.xsd

这使其成为无效的网址。我尝试手动将文件下载到缓存文件夹,但问题仍然存在。如何编辑它,以便它可以正确读取和下载链接中的内容?谢谢你。

0 投票
0 回答
253 浏览

r - R 函数 getFilings() 说 2019 年和 2020 年 EDGAR 数据未找到

我正在运行以下 R 代码,从 SEC 网站上的 EDGAR 下载特定年份的文件。我正在使用“edgar”R 包。我使用以下代码:

输出 <- getFilings(cik.no = c(353905), "ALL", Quarter = c(1, 2, 3), 2018, downl.permit = "n")

这确实让我得到了我想要的结果,但它似乎只适用于 2018 年之前的任何事情。当我尝试 2019 年或 2020 年时,我得到以下信息:

在上述年份/季度中未找到给定 CIK 和表格类型的归档信息。

即使网站上有这些时间段的文件,我也会收到此通知。有谁知道为什么会这样?

0 投票
0 回答
566 浏览

google-sheets - Google 表格:查询 sec.gov 以获取给定公司的最新文件

我最近从 SO 社区得到了很多帮助,我首先想对大家说声谢谢!

我最近的谷歌表格追求是查询 sec.gov 以获取给定股票代码的最新文件。我不是想抓取网站,我只是想获取最新的文件,这样我就可以提醒自己公司何时向美国证券交易委员会提交了新的文件。

我目前正在通过 importhtml 和 index 为每个股票代码执行此操作:

... 代码在单元格 A2 中的位置。但是,这一直不一致,因为我一直在尝试为超过 2500 个股票代码执行此操作。我注意到当一次有这么多调用时 importhtml 会遇到问题。

有没有办法通过 Google Scripts 自动执行此操作,以便我可以每晚调用最新的文件(或最近的 5 个文件)?我对 Google 脚本和触发器非常熟悉,我只是不知道如何绕过 importhtml 限制,以及如何将我的脚本限制为仅最新的 ~5 个文件,以免压倒我的电子表格。只需要在正确的方向轻轻推动。

谢谢!

0 投票
2 回答
480 浏览

xml - 从txt文件中提取xml

我正在尝试从 python 中的 txt 文件中提取代码的 xml 部分。我正在使用的当前 txt 文件来自 edgar 数据库,并且在一个 txt 文件中具有 10-k 报告的多种表示形式,先是 html,然后是 xml,然后是其他一些表示形式,例如 PDF。

如果有人知道提取此 xml 的方法以便我可以使用它的标签,我将不胜感激。

这是我正在谈论的 txt 文件的示例: https ://www.sec.gov/Archives/edgar/data/51143/000005114313000007/0000051143-13-000007.txt

0 投票
2 回答
313 浏览

python - 如何使用 readlines()

在运行以下代码时,我收到如下错误。谁能帮我解决这个问题。

AttributeError:“str”对象没有属性“readlines”

0 投票
1 回答
178 浏览

python - 如何将凌乱的 html 表转换为 pandas 数据框

我正在尝试抓取 SEC 10-Q 和 10-K 文件。虽然我能够提取表格,但 CSV 输出有点混乱。有什么方法可以将具有相似标题名称的列与熊猫合并?或者任何可以帮助我将 SEC 归档数据表导出为 csv 的库?

我试图转换为 CSV https://edgartable.netlify.app/的示例表。

这是我的代码

0 投票
0 回答
20 浏览

python - SEC EDGAR 20-F 表格 - 如何处理包含 html 标签的文本

我从 SEC EDGAR 下载了以下 20-F 表格:

https://www.sec.gov/Archives/edgar/data/1729089/000121390019021541/0001213900-19-021541.txt

如您所见,.txt 文件包含多个 html 标签,例如:

由于我想执行自然语言处理 (NLP) - 文本分析,我需要摆脱所有这些 HTML 等标签吗?我怎样才能做到这一点?通过正则表达式或使用包,例如 BeautifulSoup?