“edgar”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

313 浏览

r - 为什么我在使用 R 包 edgar 从 10-K 报告中提取业务描述时遇到错误？

我正在尝试使用 R 包从他们的 10-K 报告中提取多家公司的业务描述，edgar. 我正在使用getBusinDescr函数来做到这一点。

由于我想要许多公司（1000 多家）的业务描述，我创建了一个公司的 cik 标识符向量，并让 R 使用该向量下载 1000 多家公司的描述。问题是，R 完美地下载了我想要的填充物（10-K 报告），但它无法提取我感兴趣的部分。它在 2007 年和 2011 年停止在 61% 和 31%。但是，对于 2010 年，提取率达到 100%。

总而言之，提取在某些年份有效，但在其他年份无效。我很想知道这个错误来自哪里。您认为这是因为数据可用性（即某些公司几年没有业务描述）还是由于重复抓取尝试的一些自然错误？请帮助我解释并希望处理该错误。

仅供参考，我在我的 Mac 上使用最新的 R。

我使用的代码是：

理想结果如下：

我遇到的错误如下（尽管下载整个报告没有任何问题）：

r edgar

2019-06-06T01:22:18.163

0 投票

0 回答

888 浏览

r - R for 循环是数字

我有一个“测试”数据框，其中包含 3 家公司（ciknum 变量）和每家公司提交年度报告的年份（文件年）：

这两列是数字：

但是，我需要一个循环，用于每个 ciknum-fileyear 对从一个站点下载年度报告。这个循环需要数字变量才能成功下载，而且我似乎没有得到它们。例如，编写以下循环（对于变量公司或年份，我都知道没有一个是数字变量）：

我检查了新的 df 公司和年份是否是数字，并且有不同的证据。一方面，它似乎将年份读取为数字变量：

但另一方面，它似乎没有：

谁能告诉我这些是否是数字变量？迷失在这个...我的下载功能“my_getFilings”似乎依赖于此。先感谢您。

r for-loop numeric edgar

2019-06-11T07:41:52.553

0 投票

1 回答

90 浏览

r - 对现有函数使用 apply 函数

我正在使用“edgarWebR”包从 USSEC EDGAR 网站获取数据。包中有一个名为“company_filings”的函数，它有几个参数，我想使用其中四个参数，它应该是这样的 -

其中 comp 是一个向量，定义如下 -

但是company_filings函数一次只接受comp向量中的一个元素-例如-

实际上，我使用以下代码来获取 comp 向量中所有元素的结果 -

但它不起作用。有人可以在这方面帮助我吗？

我感谢您的帮助。

r apply lapply edgar

2019-07-12T16:37:30.243

0 投票

1 回答

1350 浏览

regex - 在 10-K Edgar 填充物中使用 Beautiful Soup 和正则表达式提取文本

我想从大约 10000 个文件中自动提取“1A. 风险因素”部分并将其写入 txt 文件。可以在此处找到带有文件的示例 URL

所需部分位于“项目 1a 风险因素”和“项目 1b”之间。问题是“item”、“1a”和“1b”在所有这些文件中可能看起来不同，并且可能出现在多个地方——不仅是我感兴趣的最长的、合适的地方。因此，应该使用一些正则表达式，以便：

提取“1a”和“1b”之间最长的部分（否则会出现目录和其他无用元素）
考虑了表达式的不同变体

我试图在脚本中实现这两个目标，但由于这是我在 Python 中的第一个项目，我只是对我认为可能有效的表达式进行了随机排序，显然它们的顺序错误（我确定我应该在“<一个>“元素，将每个提取的“部分”添加到一个列表中，然后选择最长的一个并将其写入文件，虽然我不知道如何实现这个想法）。 编辑：目前我的方法从目录返回的 1a 和 1b 之间的数据非常少（我认为它是页码）然后它停止了......（？）

我的代码：

目标是在当前 URL 中找到“1a”和“1b”之间最长的部分（无论它们看起来如何）并将其写入文件。

regex url beautifulsoup text-extraction edgar

2019-08-01T12:15:01.567

0 投票

1 回答

196 浏览

beautifulsoup - 我想用漂亮的汤来解析多个 HTML 文档，但我不能让它工作

有没有办法用beautiful soup同时解析多个HTML文档？我正在在线修改从 edgar 中提取 HTML.txt 文件的代码，并使用漂亮的汤，以便可以将它们作为格式化文件下载：但是，我发现我的代码现在只打印一个 edgar 文档（它打算打印 5），而我没有不知道有什么问题。

你知道我的代码有什么问题吗？

beautifulsoup nltk mining edgar

2019-08-05T13:13:14.283

0 投票

1 回答

61 浏览

python - 在python中修复用BS4提取的损坏的html表

我正在从行政文件中解析 html 表格。这很棘手，因为 html 经常被破坏，这会导致表格结构不佳。这是我加载到熊猫数据框中的表示例：

我编写了以下python代码来尝试修复表：

这是我得到的表：

我的主要问题是标题“Age”和“Position”已经消失，因为它们与它们的列未对齐。我正在使用这个脚本来解析许多表，所以我无法手动修复它们。此时我能做些什么来修复数据？

python pandas edgar

2019-08-09T13:12:31.933

0 投票

1 回答

638 浏览

console - 在 spyder IDE 中，运行选择工作正常，运行文件保持运行/挂起

在 Spyder IDE 中，运行选择命令 (F9) 工作正常。运行文件命令 (F5) 持续运行数小时，除了

在 [1] 中：runfile('...\MyFolder\MyScrip.py', wdir='...\MyFolder')

直到我重新启动内核。

已经看过这个问题（相同，没有有用的答案）

我的脚本是：

其中“edgar”是 python-edgar (pip)。

我使用了另一个包，通过 pip，称为 edgar，它总是作为“edgar”导入。

它们是一起安装的，所以虽然有冲突，但我删除了两者并重新安装了 python-edgar。完全没用！

console ipython spyder edgar

2019-09-04T10:51:18.697

0 投票

0 回答

172 浏览

parsing - SEC 公司文件：是标记有效的 SGML？如果是这样，如何解析它？

我试图从sec.gov. 从fb 10-Q index.htm开始，我们来看一个完整的文本提交文件，如完整提交文本文件。它的结构如下：

我试图弄清楚<SEC-HEADER>标签的结构，并在公共传播服务（PDS）技术规范（pdf）下找到了一些信息，并得出结论，标题的内容应该是SGML。

尽管如此，我对格式一无所知，因为没有尖括号，并且键值对由冒号分隔，例如key: value而不是<key>value</key>. 在 pdf 链接中，我找不到任何关于冒号的信息。

问题： <SEC-HEADER>标签是有效的 SGML 吗？如果是，如何解析？

我会很高兴有任何帮助。

parsing sgml edgar

2019-11-02T12:11:55.480

0 投票

2 回答

2999 浏览

python - 从（Edgar 10-K 文件）HTML 中提取文本部分

我正在尝试从 HTML 文件中提取某个部分。具体来说，我查找 10-K 文件（某公司的美国业务报告）的“ITEM 1”部分。例如： https ://www.sec.gov/Archives/edgar/data/1591890/000149315218003887/form10-k.htm#a_002

问题：但是，我无法找到“ITEM 1”部分，也不知道如何告诉我的算法从该点“ITEM 1”搜索到另一点（例如“ITEM 1A”）并提取之间的文字。

我非常感谢任何帮助。

除其他外，我已经尝试过这个（和类似的），但我bd的总是空的：

使用 Python 3.7 和 Beautifulsoup4

问候赫卡

python html beautifulsoup text-extraction edgar

2019-12-25T16:07:53.940

0 投票

2 回答

199 浏览

python - REGEX 从 EDGAR SC-13 表格中提取信息

我正在尝试从最新的SEC EDGAR 附表 13 表格文件中提取信息。

以备案链接为例：

1)萨巴资本_2019 年 12 月 27 日_SC13

我试图提取的信息（以及包含该信息的文件的部分）

1) 申报人姓名：Saba Capital Management, LP

2) 发行人名称：WESTERN ASSET HIGH INCOME FUND II INC

3) CUSIP号码：95766J102（设法得到）

4) 以金额表示的班级百分比：11.3%（设法获得）

5) 需要提交本声明的事件日期：2019 年 12 月 24 日

.

如何从归档中提取这 5 条信息？提前致谢

python regex beautifulsoup finance edgar

2019-12-30T11:43:57.370

问题标签 [edgar]

Reference