问题标签 [edgar]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
313 浏览

r - 为什么我在使用 R 包 edgar 从 10-K 报告中提取业务描述时遇到错误?

我正在尝试使用 R 包从他们的 10-K 报告中提取多家公司的业务描述,edgar. 我正在使用getBusinDescr函数来做到这一点。

由于我想要许多公司(1000 多家)的业务描述,我创建了一个公司的 cik 标识符向量,并让 R 使用该向量下载 1000 多家公司的描述。问题是,R 完美地下载了我想要的填充物(10-K 报告),但它无法提取我感兴趣的部分。它在 2007 年和 2011 年停止在 61% 和 31%。但是,对于 2010 年,提取率达到 100%。

总而言之,提取在某些年份有效,但在其他年份无效。我很想知道这个错误来自哪里。您认为这是因为数据可用性(即某些公司几年没有业务描述)还是由于重复抓取尝试的一些自然错误?请帮助我解释并希望处理该错误。

仅供参考,我在我的 Mac 上使用最新的 R。

我使用的代码是:

理想结果如下:

我遇到的错误如下(尽管下载整个报告没有任何问题):

0 投票
0 回答
888 浏览

r - R for 循环是数字

我有一个“测试”数据框,其中包含 3 家公司(ciknum 变量)和每家公司提交年度报告的年份(文件年):

这两列是数字:

但是,我需要一个循环,用于每个 ciknum-fileyear 对从一个站点下载年度报告。这个循环需要数字变量才能成功下载,而且我似乎没有得到它们。例如,编写以下循环(对于变量公司或年份,我都知道没有一个是数字变量):

我检查了新的 df 公司和年份是否是数字,并且有不同的证据。一方面,它似乎将年份读取为数字变量:

但另一方面,它似乎没有:

谁能告诉我这些是否是数字变量?迷失在这个...我的下载功能“my_getFilings”似乎依赖于此。先感谢您。

0 投票
1 回答
90 浏览

r - 对现有函数使用 apply 函数

我正在使用“edgarWebR”包从 USSEC EDGAR 网站获取数据。包中有一个名为“company_filings”的函数,它有几个参数,我想使用其中四个参数,它应该是这样的 -

其中 comp 是一个向量,定义如下 -

但是company_filings函数一次只接受comp向量中的一个元素-例如-

实际上,我使用以下代码来获取 comp 向量中所有元素的结果 -

但它不起作用。有人可以在这方面帮助我吗?

我感谢您的帮助。

0 投票
1 回答
1350 浏览

regex - 在 10-K Edgar 填充物中使用 Beautiful Soup 和正则表达式提取文本

我想从大约 10000 个文件中自动提取“1A. 风险因素”部分并将其写入 txt 文件。可以在此处找到带有文件的示例 URL

所需部分位于“项目 1a 风险因素”和“项目 1b”之间。问题是“item”、“1a”和“1b”在所有这些文件中可能看起来不同,并且可能出现在多个地方——不仅是我感兴趣的最长的、合适的地方。因此,应该使用一些正则表达式,以便:

  1. 提取“1a”和“1b”之间最长的部分(否则会出现目录和其他无用元素)

  2. 考虑了表达式的不同变体

我试图在脚本中实现这两个目标,但由于这是我在 Python 中的第一个项目,我只是对我认为可能有效的表达式进行了随机排序,显然它们的顺序错误(我确定我应该在“<一个>“​​元素,将每个提取的“部分”添加到一个列表中,然后选择最长的一个并将其写入文件,虽然我不知道如何实现这个想法)。 编辑:目前我的方法从目录返回的 1a 和 1b 之间的数据非常少(我认为它是页码)然后它停止了......(?)

我的代码:

目标是在当前 URL 中找到“1a”和“1b”之间最长的部分(无论它们看起来如何)并将其写入文件。

0 投票
1 回答
196 浏览

beautifulsoup - 我想用漂亮的汤来解析多个 HTML 文档,但我不能让它工作

有没有办法用beautiful soup同时解析多个HTML文档?我正在在线修改从 edgar 中提取 HTML.txt 文件的代码,并使用漂亮的汤,以便可以将它们作为格式化文件下载:但是,我发现我的代码现在只打印一个 edgar 文档(它打算打印 5),而我没有不知道有什么问题。

你知道我的代码有什么问题吗?

0 投票
1 回答
61 浏览

python - 在python中修复用BS4提取的损坏的html表

我正在从行政文件中解析 html 表格。这很棘手,因为 html 经常被破坏,这会导致表格结构不佳。这是我加载到熊猫数据框中的表示例:

我编写了以下python代码来尝试修复表:

这是我得到的表:

我的主要问题是标题“Age”和“Position”已经消失,因为它们与它们的列未对齐。我正在使用这个脚本来解析许多表,所以我无法手动修复它们。此时我能做些什么来修复数据?

0 投票
1 回答
638 浏览

console - 在 spyder IDE 中,运行选择工作正常,运行文件保持运行/挂起

在 Spyder IDE 中,运行选择命令 (F9) 工作正常。运行文件命令 (F5) 持续运行数小时,除了

在 [1] 中:runfile('...\MyFolder\MyScrip.py', wdir='...\MyFolder')

直到我重新启动内核。

已经看过这个问题(相同,没有有用的答案)

我的脚本是:

其中“edgar”是 python-edgar (pip)。

我使用了另一个包,通过 pip,称为 edgar,它总是作为“edgar”导入。

它们是一起安装的,所以虽然有冲突,但我删除了两者并重新安装了 python-edgar。完全没用!

0 投票
0 回答
172 浏览

parsing - SEC 公司文件:是标记有效的 SGML?如果是这样,如何解析它?

我试图从sec.gov. 从fb 10-Q index.htm开始,我们来看一个完整的文本提交文件,如完整提交文本文件。它的结构如下:

我试图弄清楚<SEC-HEADER>标签的结构,并在公共传播服务(PDS)技术规范(pdf)下找到了一些信息,并得出结论,标题的内容应该是SGML。

尽管如此,我对格式一无所知,因为没有尖括号,并且键值对由冒号分隔,例如key: value而不是<key>value</key>. 在 pdf 链接中,我找不到任何关于冒号的信息。

问题: <SEC-HEADER>标签是有效的 SGML 吗?如果是,如何解析?

我会很高兴有任何帮助。

0 投票
2 回答
2999 浏览

python - 从(Edgar 10-K 文件)HTML 中提取文本部分

我正在尝试从 HTML 文件中提取某个部分。具体来说,我查找 10-K 文件(某公司的美国业务报告)的“ITEM 1”部分。例如: https ://www.sec.gov/Archives/edgar/data/1591890/000149315218003887/form10-k.htm#a_002

问题:但是,我无法找到“ITEM 1”部分,也不知道如何告诉我的算法从该点“ITEM 1”搜索到另一点(例如“ITEM 1A”)并提取之间的文字。

我非常感谢任何帮助。

除其他外,我已经尝试过这个(和类似的),但我bd的总是空的:

使用 Python 3.7 和 Beautifulsoup4

问候赫卡

0 投票
2 回答
199 浏览

python - REGEX 从 EDGAR SC-13 表格中提取信息

我正在尝试从最新的SEC EDGAR 附表 13 表格文件中提取信息。

以备案链接为例:

1)萨巴资本_2019 年 12 月 27 日_SC13

我试图提取的信息(以及包含该信息的文件的部分)

1) 申报人姓名:Saba Capital Management, LP

2) 发行人名称:WESTERN ASSET HIGH INCOME FUND II INC

3) CUSIP号码:95766J102(设法得到)

4) 以金额表示的班级百分比:11.3%(设法获得)

5) 需要提交本声明的事件日期:2019 年 12 月 24 日

.

如何从归档中提取这 5 条信息?提前致谢