问题标签 [edgar]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用 R 基于 SIC 从 EDGAR 检索 S-1 申请
我正在尝试分析所有特殊目的收购公司 (SIC=6770) 的 S-1 文件,但我无法找到一种有效地从 SEC EDGAR 获取这些数据的方法。我已经研究了“edgar”和“edgarWebR”R 软件包,但还没有找到一种方法来提取仅基于 SIC 代码的大量公司的 S-1 文件。我想如果我能获得我正在寻找的所有公司的 CIK 代码,我就可以使用现有的包来获得我需要的信息。
如果有人有使用 edgar 的经验,你觉得哪个包有用?我如何获得整个行业的 CIK 代码?
edgar - 下载多个 10-ks 文档
我需要下载多个 10-ks 文档,但是,如果我下载 5-10 家公司之间的 10-ks,此代码可以正常工作。但如果我增加 [cik_lookup 函数] 中的公司数量。这是代码。
这是包含 project_helper 函数的 py 文件。
第一步是下载 NLP Corpora。
比得到 10ks
获取 10-ks 列表
如果我下载 5-10 家公司之间的 10-ks,代码可以正常工作。但是,如果我在 [cik_lookup 函数] 中增加公司的数量,我会收到以下错误。我得到的第一个错误如下。
但是,在对 BeutifulSoup(ecodes) 进行了一些谷歌搜索后,我将其更改为 utf-8,然后出现以下错误。
可以在以下 github 存储库中访问该项目。 github repo也在这里。
python - 使用 Python 3.9 通过 EDGAR 从 sec.gov 下载文件
我是编码世界的新手,所以如果我滥用术语或通常不知道我在说什么,请多多包涵。我正在做一个研究项目,我试图通过 EDGAR 从 sec.gov 刮取上市公司 10-Ks。我阅读了各种资料,观看了各种视频,但我发现以下参考资料与我的项目最相关,坦率地说,我很容易理解。我的代码解释从第 194 页开始,代码从第 195 页开始。我首先尝试下载索引文件(下图),这将帮助我编写代码来专门获得 10-Ks。所以,我正处于项目的早期阶段。
这只是我正在使用的论文的参考。它目前在 SSRN 上,所以我意识到每个人都可能无法访问。我会上传 PDF,但我不认为这是一个选项。我列出这个纯粹是为了表明我有我正在做的事情的来源。如有必要,我可以提供屏幕截图。
Anand, V.、Bochkay, K.、Chychyla, R. 和 Leone, AJ (2020)。在会计研究中使用 Python 进行文本分析。即将出版,会计基础和趋势。
目前,我有两个问题:我的代码没有按预期工作,而且我似乎被 sec.gov 阻止了。我将首先讨论前者,最后讨论后者。当我运行以下命令时,它应该在 down_direct 路径下载 2018 和 2019 索引文件。但是,此代码仅抓取 2018 年的索引文件。
下面的 log/IDLE shell 结果显示了“成功”和不成功的运行。不成功的运行让我觉得我被 sec.gov 阻止了。据我了解,某些网站会查找来自 urllib.request 的请求,并且可能会自动对其进行筛选。但是,只要您在间隔尝试数小时后尝试下载,sec.gov 对研究人员是友好的,这两项我都做过(我昨晚从晚上 7 点到晚上 10 点一直在做这个,两次尝试之间等待了 10 分钟)。所以,我的问题是
我应该如何调整我的代码以使其按预期运行?(即,提取 start_year 和 end_year 的所有 4 个季度)
我被 sec.gov 屏蔽了吗?如果是这样,我可以调整我的代码来解决这个问题吗?
成功运行
检索数据
下载 C:/Users/Documents/Student Files/~Current Student/~RESEARCH/~First Summer Paper/Data/EDGAR/master20184.idx
检索到的数据
运行不成功(为了篇幅,我只包括了错误行)
检索数据
urllib.error.HTTPError:HTTP 错误 403:禁止
我看过类似的帖子,人们建议将以下内容添加到代码中以解决此错误,但我太绿了,我真的不知道如何将其合并。感谢任何帮助,如果我需要编辑我的帖子更多信息,请告诉我。
r - Problems with getMgmtDisc (from edgar): "no filing information found" or "object ´words.count´ not found"
I am unfortunately working with R for the first time and I am having a problem with the package "edgar".
My code is as follows: Normal:
or
With a loop:
I am trying to pull the 10-K filings from the SEC via the edgar package. More specifically, I would like to get the Management Discussion and the Business Describtion. So on the one hand I use the formula getMgmtDisc and getBusinDescr. However, for both of them I have two problems.
- sometimes the code works and I get the full filings, but sometimes I don't get anything at all, even though I haven't changed anything in the code and just restarted R or similar.
In this case I get the following error message:
Although I know this is not true.
- if the code for the filings worked then, but sometimes/most of the time I still don't get the management discussion or the business description. Sometimes only for certain years, even though I know they exist for all years. It just changes very randomly.
In this case, the following error message appears:
I have tried it with a normal code as well as with a loop. (By the way, is the loop correct?).
Thank you so much for your help!!
pandas - Python Edgar 请求用户代理
我运行了以下命令:
它抛出以下错误要求 user_agent。如果我在其他任何事情上出错,请澄清我在哪里可以获得该用户代理和指导?错误信息是:
python - BeautifulSoup:获取模态页脚的 HTML 代码
我是 Python 中 Web 抓取的新手,并尝试从 SEC Edgar 全文搜索中抓取所有 htm 文档链接。我可以在模态页脚中看到链接,但 BeautifulSoup 不会使用链接解析 href 元素。
是否有一个简单的解决方案来解析文档的链接?
r - R:使用 R edgar 包从 SEC Edgar 数据库中读取旧的 13F txt 文件
嗨,我正在尝试使用 R edgar 包读取 SEC edgar 数据库中的 13F 文件
我面临的挑战是我正在查看的文件是旧文件(~2000 年) https://www.sec.gov/edgar/browse/?CIK=1087699
它们是糟糕的 txt 格式,与今天的 13F 不同,并且使用 readtxt 函数无法读取。
示例文件在这里:https ://www.sec.gov/Archives/edgar/data/1087699/000108769999000001/0001087699-99-000001.txt
我试过了,R 只是告诉我它很忙并且永远下载,它不是一个很大的 txt 文件。所以出了点问题。然后当它最终完成时,它说没有找到给定 CIK 和表单类型的归档信息,但我清楚地在查看文件。如果 edgar 包没有设计来处理它,那我该怎么办呢?
我的最终目标是将文件保存在漂亮的数据框中,股票代码和价格的列以及股票数据的行。请帮忙。
有没有可用的刮痧?我通过检查铬突出了灯光,但它们对我来说看起来很奇怪(抱歉,根本不擅长刮)。
python - JSONDecodeError: 期望值: scaping SEC EDGAR 时的第 1 行第 1 列 (char 0)
我的代码如下:
去年我可以运行完全相同的代码,但是当我昨天运行它时,弹出警告:“JSONDecodeError: Expecting value: line 1 column 1 (char 0)” 为什么?我应该如何解决问题?非常感谢!