问题标签 [edgar]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
145 浏览

r - 使用 R 基于 SIC 从 EDGAR 检索 S-1 申请

我正在尝试分析所有特殊目的收购公司 (SIC=6770) 的 S-1 文件,但我无法找到一种有效地从 SEC EDGAR 获取这些数据的方法。我已经研究了“edgar”和“edgarWebR”R 软件包,但还没有找到一种方法来提取仅基于 SIC 代码的大量公司的 S-1 文件。我想如果我能获得我正在寻找的所有公司的 CIK 代码,我就可以使用现有的包来获得我需要的信息。

如果有人有使用 edgar 的经验,你觉得哪个包有用?我如何获得整个行业的 CIK 代码?

0 投票
0 回答
103 浏览

python - 使用 edgar 5.4.1 解析 10K 文件时出现问题?

我正在使用 edgar 5.4.1 从 SEC 数据库中获取 10K 文件,但我无法解析 html 元素并查看文档的实际文本内容。

我用了两种方法:

  1. 第一个似乎适用于 5.4.1 版本,但它会引发如下属性错误。

在此处输入图像描述

  1. 第二种方式,由于包的更新可能不起作用,也没有返回文本,但其他我不完全理解:

有没有办法解析这个?这是一个错误吗?我不明白这一点。

在此处输入图像描述

0 投票
0 回答
53 浏览

edgar - 下载多个 10-ks 文档

我需要下载多个 10-ks 文档,但是,如果我下载 5-10 家公司之间的 10-ks,此代码可以正常工作。但如果我增加 [cik_lookup 函数] 中的公司数量。这是代码。

这是包含 project_helper 函数的 py 文件。

第一步是下载 NLP Corpora。

比得到 10ks

获取 10-ks 列表

如果我下载 5-10 家公司之间的 10-ks,代码可以正常工作。但是,如果我在 [cik_lookup 函数] 中增加公司的数量,我会收到以下错误。我得到的第一个错误如下。

但是,在对 BeutifulSoup(ecodes) 进行了一些谷歌搜索后,我将其更改为 utf-8,然后出现以下错误。

可以在以下 github 存储库中访问该项目。 github repo也在这里。

0 投票
2 回答
2299 浏览

python - 使用 Python 3.9 通过 EDGAR 从 sec.gov 下载文件

我是编码世界的新手,所以如果我滥用术语或通常不知道我在说什么,请多多包涵。我正在做一个研究项目,我试图通过 EDGAR 从 sec.gov 刮取上市公司 10-Ks。我阅读了各种资料,观看了各种视频,但我发现以下参考资料与我的项目最相关,坦率地说,我很容易理解。我的代码解释从第 194 页开始,代码从第 195 页开始。我首先尝试下载索引文件(下图),这将帮助我编写代码来专门获得 10-Ks。所以,我正处于项目的早期阶段。

这只是我正在使用的论文的参考。它目前在 SSRN 上,所以我意识到每个人都可能无法访问。我会上传 PDF,但我不认为这是一个选项。我列出这个纯粹是为了表明我有我正在做的事情的来源。如有必要,我可以提供屏幕截图。

Anand, V.、Bochkay, K.、Chychyla, R. 和 Leone, AJ (2020)。在会计研究中使用 Python 进行文本分析。即将出版,会计基础和趋势。

索引文件示例: 在此处输入图像描述

目前,我有两个问题:我的代码没有按预期工作,而且我似乎被 sec.gov 阻止了。我将首先讨论前者,最后讨论后者。当我运行以下命令时,它应该在 down_direct 路径下载 2018 和 2019 索引文件。但是,此代码仅抓取 2018 年的索引文件。

下面的 log/IDLE shell 结果显示了“成功”和不成功的运行。不成功的运行让我觉得我被 sec.gov 阻止了。据我了解,某些网站会查找来自 urllib.request 的请求,并且可能会自动对其进行筛选。但是,只要您在间隔尝试数小时后尝试下载,sec.gov 对研究人员是友好的,这两项我都做过(我昨晚从晚上 7 点到晚上 10 点一直在做这个,两次尝试之间等待了 10 分钟)。所以,我的问题是

  1. 我应该如何调整我的代码以使其按预期运行?(即,提取 start_year 和 end_year 的所有 4 个季度)

  2. 我被 sec.gov 屏蔽了吗?如果是这样,我可以调整我的代码来解决这个问题吗?

成功运行

检索数据

下载 C:/Users/Documents/Student Files/~Current Student/~RESEARCH/~First Summer Paper/Data/EDGAR/master20184.idx

检索到的数据

运行不成功(为了篇幅,我只包括了错误行)

检索数据

urllib.error.HTTPError:HTTP 错误 403:禁止

我看过类似的帖子,人们建议将以下内容添加到代码中以解决此错误,但我太绿了,我真的不知道如何将其合并。感谢任何帮助,如果我需要编辑我的帖子更多信息,请告诉我。

0 投票
0 回答
111 浏览

r - Problems with getMgmtDisc (from edgar): "no filing information found" or "object ´words.count´ not found"

I am unfortunately working with R for the first time and I am having a problem with the package "edgar".

My code is as follows: Normal:

or

With a loop:

I am trying to pull the 10-K filings from the SEC via the edgar package. More specifically, I would like to get the Management Discussion and the Business Describtion. So on the one hand I use the formula getMgmtDisc and getBusinDescr. However, for both of them I have two problems.

  1. sometimes the code works and I get the full filings, but sometimes I don't get anything at all, even though I haven't changed anything in the code and just restarted R or similar.

In this case I get the following error message:

Although I know this is not true.

  1. if the code for the filings worked then, but sometimes/most of the time I still don't get the management discussion or the business description. Sometimes only for certain years, even though I know they exist for all years. It just changes very randomly.

In this case, the following error message appears:

I have tried it with a normal code as well as with a loop. (By the way, is the loop correct?).

Thank you so much for your help!!

0 投票
1 回答
566 浏览

pandas - Python Edgar 请求用户代理

我运行了以下命令:

它抛出以下错误要求 user_agent。如果我在其他任何事情上出错,请澄清我在哪里可以获得该用户代理和指导?错误信息是:

0 投票
2 回答
539 浏览

beautifulsoup - 如何 Web 抓取 SEC Edgar 10-K 动态数据

我们正在尝试使用 Python 解析 SEC Edgar 文件。我正在尝试在第 21 行获取此表“按业务部门划分的销售额”。这是文档的链接。

下面是我们在网上找到的代码。网页中的所有数据都在这个标签下。

我们无法打印此数据。

在此处输入图像描述

任何人都可以帮助我们得到这个。任何建议都是有帮助的。

0 投票
1 回答
49 浏览

python - BeautifulSoup:获取模态页脚的 HTML 代码

我是 Python 中 Web 抓取的新手,并尝试从 SEC Edgar 全文搜索中抓取所有 htm 文档链接。我可以在模态页脚中看到链接,但 BeautifulSoup 不会使用链接解析 href 元素。

是否有一个简单的解决方案来解析文档的链接?

网站 HTML 代码中的链接快照

0 投票
2 回答
239 浏览

r - R:使用 R edgar 包从 SEC Edgar 数据库中读取旧的 13F txt 文件

嗨,我正在尝试使用 R edgar 包读取 SEC edgar 数据库中的 13F 文件

我面临的挑战是我正在查看的文件是旧文件(~2000 年) https://www.sec.gov/edgar/browse/?CIK=1087699

它们是糟糕的 txt 格式,与今天的 13F 不同,并且使用 readtxt 函数无法读取。

示例文件在这里:https ://www.sec.gov/Archives/edgar/data/1087699/000108769999000001/0001087699-99-000001.txt

我试过了,R 只是告诉我它很忙并且永远下载,它不是一个很大的 txt 文件。所以出了点问题。然后当它最终完成时,它说没有找到给定 CIK 和表单类型的归档信息,但我清楚地在查看文件。如果 edgar 包没有设计来处理它,那我该怎么办呢?

我的最终目标是将文件保存在漂亮的数据框中,股票代码和价格的列以及股票数据的行。请帮忙。

有没有可用的刮痧?我通过检查铬突出了灯光,但它们对我来说看起来很奇怪(抱歉,根本不擅长)。

0 投票
2 回答
45 浏览

python - JSONDecodeError: 期望值: scaping SEC EDGAR 时的第 1 行第 1 列 (char 0)

我的代码如下:

去年我可以运行完全相同的代码,但是当我昨天运行它时,弹出警告:“JSONDecodeError: Expecting value: line 1 column 1 (char 0)” 为什么?我应该如何解决问题?非常感谢!