问题标签 [edgar]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
445 浏览

parsing - 用 python 从(Edgar 13-F 文件)TXT(2013 年之前)中提取控股表

我正在从 EDGAR 上的 13-F 表格中提取一份持股表。2013 年之前的馆藏以 txt 文件的形式提供(参见示例)。我的目标是一个 pd.DataFrame,其形状与 txt 文件中的“Form 13F 信息表”相同(10 列,每行在单独的行中)。

我曾尝试使用 BeautifulSoup,它将表格转换为标签对象,但我无法弄清楚如何将其格式化以进入数据框,如上所述。

这是我的代码尝试:

当el返回以下内容时,这就是我卡住的地方。我不能用 \n 来拆分它,因为公司名称中经常有 \n (AMERICAN\n EXPRESS CO)。

\ namerican \ n Express CO com 025816109 112,209 1,952,142共享定义4 1,952,142-- \ \ Namerican \ n Express CO CO com 025816109 9909 990,116 990,116 17,225,400共享4,5 17,317,17,17,119,48 \ n 8,9,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4 n n n v n n \ n.4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4 n n n n n n n v , 7 839,832 - -\nAMERICAN\n EXPRESS CO COM 025816109 111,689 1,943,100 Shared-Defined 4, 8, 11 1,943,100 - -\nAMERICAN\n EXPRESS CO COM 025816109 459,532 7,994,634 Shared-Defined 4, 10 7,994,634 - -\nAMERICAN\n EXPRESS CO COM 025816109 6,912,308 120,255,879 共享定义 4, 11 120,255,879 - -\n美国\n EXPRESS CO COM 025816109 80,456 1,399,713 共享定义 4, 13 1,399,713 - -\nARCHER DANIELS\n Midland CO COM 039483102 163,151 5,956,600 共享定义 4, 5, 5, 95 纽约银行\n CORP COM 064058100 206,661 8,041,300 共享定义的 4 8,041,300 - -\n纽约梅隆银行\n 纽约梅隆银行\n CORP COM 064058100 46,104 1,793,915 共享定义的 2, 4, 11 1,793,915 纽约梅隆银行 -\n\n CORP COM 064058100 251,827 9,798,700 共享定义 4, 8, 11 9,798,700 - -\nCOCA COLA CO COM 191216100 29,000 800,000 共享定义的 4 800,000 - -\n

我将非常感谢任何建议。

0 投票
0 回答
307 浏览

python - Python Edgar包——获取CIK号

我正在阅读 Edgar sec 的 S-1 文件。我从彭博获得我的初始数据。通过公司名称,我可以使用术语get_cik_by_company_name(company_name: str)查找匹配的 CIK 编号。我应该能够获得我想要保存在列表中的 CIK 编号 -> cik_list。但是它不起作用 - str 的语法无效。

BloombergList 是使用所有相关公司名称创建的 Excel Bloomberg。在第 4 列中,我得到了作为列表导入的名称,而不是获取匹配的 CIK,然后以正确的顺序将 CIK 列表导出回 BloombergList - 理论上。

如果有人可以提供帮助,我很高兴。提前致谢。

0 投票
1 回答
403 浏览

python-3.x - ModuleNotFoundError:没有名为“edgar”的模块

我正在尝试安装 Python Edgar 库

我使用了以下代码

我收到以下错误

等等

我不知道当我跑步时有什么问题

我得到了错误

0 投票
0 回答
51 浏览

named-entity-recognition - “合并财务数据”和“表格 8-K”以及类似的法律术语是否算作命名实体(用于命名实体识别)?

感谢您的帮助。我正在做一些命名实体标记,并遇到了一些模棱两可的术语。我主要遵循 CoNLL2003 注释指南和 MUC-7 命名实体定义(其他注释指南大多与这些指南共享相同的想法)

https://www.clips.uantwerpen.be/conll2003/ner/

https://www-nlpir.nist.gov/related_projects/muc/proceedings/ne_task.html

对于例句“我在北美和南美做生意”,我应该如何标记“北美和南美”?整个短语作为一个“位置”实体,还是“北”和“南美洲”作为两个“位置”实体?

我正在标记一些法律报告(来自美国证券交易委员会的 EDGAR 数据集),所以我遇到了诸如“Form 10”、“Form 8-K”之类的短语,它们是美国公司的法律表格类型。这些是否应该被视为“杂项”命名实体?

在这些表格中,有“合并财务报表”、“管理层讨论与分析”等章节名称,是否应标记为“杂项”?

如果是,那么诸如“年度报告”、“股东年度会议”、“普通股”、“限制性股票单位”之类的短语就会变得非常模糊。可以说它们是一种“法律文件”的名称,或者是一种“金融工具”的名称。但是这些短语在某种程度上是通用的,并没有指出一个特定的实体。它们应该是“杂项”还是“在命名实体之外”(不是命名实体)?

0 投票
1 回答
176 浏览

html - R - 检查 HTML 格式标签(粗体、斜体等)

我正在使用 edgarWebR 解析 10K (SEC EDGAR) 文件。我正在尝试编写一个算法来通过检查文档的格式来推断每个 HTML 元素是普通文本、副标题还是标题(例如,一些 10Ks 可能所有标题都以粗斜体显示,而副标题仅以斜体显示)

edgarWebR 返回一个数据框,其中每个元素对应于一行,包含文本和 html。一些html的例子:

<p style="margin-top:18px;margin-bottom:0px"><font style="font-family:ARIAL" size="2"><b><i>Our quarterly operating results have fluctuated in the past and might continue to fluctuate, causing the value of our common stock to decline substantially. </i></b></font></p>

正如我们所看到的,上面应该标记为粗体和斜体。然而,这在不同的文件中表现不同。例如,此文件用于<b>表示粗体,而有些则表示字体重量 = 粗体。

处理这个问题的最佳方法是什么?是否有一个 R 包可以解析 HTML 并告诉我它是粗体和斜体,或者返回一个标签列表,这些标签是专门格式化标签(不是 span、p 等)。

或者,我如何根据手动编译的粗体和斜体(“粗体” <b>,,强)指标列表检查每一行,并让它返回与每一行匹配的列表中的任何元素?

最后,我计划将值制成表格以确定标题级别。例如,如果我计算 100 个既没有粗体也没有斜体的元素,20 个只有 的元素<b>,以及 10 个包含<b>“斜体”的元素,我可以推断粗体和斜体代表这个特定文件的标题,而单独的粗体表示子标题。

0 投票
1 回答
104 浏览

r - 如何使用 edgarWebR 获取多个公司的信息

我正在尝试使用edgarWebR包从 EDGAR 获取公司及其归档信息。特别是,我想使用包中的两个函数 -filing_informationcompany_filings.

我实际上cik在不同的数据集中有数千个,但上面的两个函数都不能处理cik. 这是一个例子——

我需要在函数中使用href变量。filing_information

实际上,我试图以这种方式使用它-

但它不起作用。我收到了这条消息-

我实际上可以通过href如下方式放置每个变量值来做到这一点

函数也是如此company_filings,我只使用一个cik- “1000045”,但在另一个文件中,我有数千个cik我想运行该company_filings函数的所有文件。手动这是不可能的,因为我有数千个cik.

任何人都知道如何在 LARGE 向量上自动执行这两个功能。

谢谢

0 投票
1 回答
363 浏览

python - 使用 Python lxml 解析 XML

我正在尝试使用 python 库lxml解析 XML ,并希望结果输出位于数据框中。我对 python 和解析比较陌生,所以在我概述问题时请多多包涵。我尝试解析的原始 xml 可在此处获得

我有兴趣在“ invstOrSec ”中获得一些相关标签。下面是“ invstOrSec ”的一个实例的快照,其中标签“ curCd ”附带的文本是美元。

这相对简单,我目前的方法包括首先在字典中定义相关标签,然后将它们粗化为循环中的数据帧。

这是sec_info的前三行

姓名 curCd
日本人寿保险 549300Y0HHMFW3EVWY08 美元
劳埃德银行集团 549300PPXHEU2JF0AM85 美元
安桥公司 98TPTUM4IVMFCZBCUR27 美元

但是,当货币不是美元时,xml 的结构略有不同。请参见下面的示例。

这次curCd被一个不同的标签 currencyConditional替换,它包含与文本相反的属性。我很难解释这些情况,同时保持我的代码尽可能通用。我希望我已经设法说明了这个问题。再次,如果这太初级,请原谅我。任何帮助将非常感激。

0 投票
1 回答
210 浏览

r - 从他们的 10-K 报告中提取多家公司的业务描述(项目 1)

我正在尝试使用 R 包 edgar 从他们的 10-K 报告中提取多家公司的业务描述。我正在使用 getBusinDescr 函数来执行此操作。但是,我只能提取第 1 项(业务描述)和第 1A 项(风险因素)。有谁知道如何操纵函数“getBusinDescr”的代码来只检索项目1?解析必须以某种方式结束于“Item 1A. Risk Factors”。

0 投票
0 回答
63 浏览

python - 在 python 中可视化使用 edgar 库抓取的数据的问题

我目前正在尝试使用 Python 中的 edgar 库从 SEC EDGAR 数据库下载 S1 文件。我尝试运行库项目描述中给出的示例代码,如下所示:

该代码似乎有效,但我无法理解如何在将文档保存为变量后检索该文档。键入 docs 返回 <Element sec-document at 0x7f8bbd0de720>。

任何帮助将不胜感激!

0 投票
0 回答
58 浏览

python - 下载 SEC 数据时出现递归错误

我目前正在尝试使用 sec_edgar_downloader 库从 SEC EDGAR 下载 S-1 文件。我有一个由 CIK 值组成的 pandas DataFrame,对于每个值,我想在可用时下载相关的 S-1。为了检查哪些公司没有它,我添加了一个新列,当找到并下载文件时等于 1,否则为 0。我运行的代码是

其中 tryconvert() 是一个定义为的函数

CIK_check() 是一个定义为的函数

CIK_check 在可用时执行下载文件的操作,并返回表示是否成功的二进制值。我必须添加 tryconvert() 以尝试解决在尝试运行代码时最终出现的错误,其中会引发以下错误:

但是,这不起作用,因为我仍然收到此错误,这使得无法完成我尝试执行的任务。错误的原因可能是什么?(不幸的是,鉴于它是 pandas DataFrame 上的 apply 函数,尚不清楚在哪个条目引发错误)。是否有另一种方法可以克服 RecursionError 而不必停止计算并将其简单地视为标记为 0 的失败下载?