问题标签 [edgar]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
parsing - 用 python 从(Edgar 13-F 文件)TXT(2013 年之前)中提取控股表
我正在从 EDGAR 上的 13-F 表格中提取一份持股表。2013 年之前的馆藏以 txt 文件的形式提供(参见示例)。我的目标是一个 pd.DataFrame,其形状与 txt 文件中的“Form 13F 信息表”相同(10 列,每行在单独的行中)。
我曾尝试使用 BeautifulSoup,它将表格转换为标签对象,但我无法弄清楚如何将其格式化以进入数据框,如上所述。
这是我的代码尝试:
当el返回以下内容时,这就是我卡住的地方。我不能用 \n 来拆分它,因为公司名称中经常有 \n (AMERICAN\n EXPRESS CO)。
\ namerican \ n Express CO com 025816109 112,209 1,952,142共享定义4 1,952,142-- \ \ Namerican \ n Express CO CO com 025816109 9909 990,116 990,116 17,225,400共享4,5 17,317,17,17,119,48 \ n 8,9,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4 n n n v n n \ n.4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4 n n n n n n n v , 7 839,832 - -\nAMERICAN\n EXPRESS CO COM 025816109 111,689 1,943,100 Shared-Defined 4, 8, 11 1,943,100 - -\nAMERICAN\n EXPRESS CO COM 025816109 459,532 7,994,634 Shared-Defined 4, 10 7,994,634 - -\nAMERICAN\n EXPRESS CO COM 025816109 6,912,308 120,255,879 共享定义 4, 11 120,255,879 - -\n美国\n EXPRESS CO COM 025816109 80,456 1,399,713 共享定义 4, 13 1,399,713 - -\nARCHER DANIELS\n Midland CO COM 039483102 163,151 5,956,600 共享定义 4, 5, 5, 95 纽约银行\n CORP COM 064058100 206,661 8,041,300 共享定义的 4 8,041,300 - -\n纽约梅隆银行\n 纽约梅隆银行\n CORP COM 064058100 46,104 1,793,915 共享定义的 2, 4, 11 1,793,915 纽约梅隆银行 -\n\n CORP COM 064058100 251,827 9,798,700 共享定义 4, 8, 11 9,798,700 - -\nCOCA COLA CO COM 191216100 29,000 800,000 共享定义的 4 800,000 - -\n
我将非常感谢任何建议。
python - Python Edgar包——获取CIK号
我正在阅读 Edgar sec 的 S-1 文件。我从彭博获得我的初始数据。通过公司名称,我可以使用术语get_cik_by_company_name(company_name: str)查找匹配的 CIK 编号。我应该能够获得我想要保存在列表中的 CIK 编号 -> cik_list。但是它不起作用 - str 的语法无效。
BloombergList 是使用所有相关公司名称创建的 Excel Bloomberg。在第 4 列中,我得到了作为列表导入的名称,而不是获取匹配的 CIK,然后以正确的顺序将 CIK 列表导出回 BloombergList - 理论上。
如果有人可以提供帮助,我很高兴。提前致谢。
python-3.x - ModuleNotFoundError:没有名为“edgar”的模块
我正在尝试安装 Python Edgar 库
我使用了以下代码
我收到以下错误
等等
我不知道当我跑步时有什么问题
我得到了错误
named-entity-recognition - “合并财务数据”和“表格 8-K”以及类似的法律术语是否算作命名实体(用于命名实体识别)?
感谢您的帮助。我正在做一些命名实体标记,并遇到了一些模棱两可的术语。我主要遵循 CoNLL2003 注释指南和 MUC-7 命名实体定义(其他注释指南大多与这些指南共享相同的想法)
https://www.clips.uantwerpen.be/conll2003/ner/
https://www-nlpir.nist.gov/related_projects/muc/proceedings/ne_task.html
对于例句“我在北美和南美做生意”,我应该如何标记“北美和南美”?整个短语作为一个“位置”实体,还是“北”和“南美洲”作为两个“位置”实体?
我正在标记一些法律报告(来自美国证券交易委员会的 EDGAR 数据集),所以我遇到了诸如“Form 10”、“Form 8-K”之类的短语,它们是美国公司的法律表格类型。这些是否应该被视为“杂项”命名实体?
在这些表格中,有“合并财务报表”、“管理层讨论与分析”等章节名称,是否应标记为“杂项”?
如果是,那么诸如“年度报告”、“股东年度会议”、“普通股”、“限制性股票单位”之类的短语就会变得非常模糊。可以说它们是一种“法律文件”的名称,或者是一种“金融工具”的名称。但是这些短语在某种程度上是通用的,并没有指出一个特定的实体。它们应该是“杂项”还是“在命名实体之外”(不是命名实体)?
html - R - 检查 HTML 格式标签(粗体、斜体等)
我正在使用 edgarWebR 解析 10K (SEC EDGAR) 文件。我正在尝试编写一个算法来通过检查文档的格式来推断每个 HTML 元素是普通文本、副标题还是标题(例如,一些 10Ks 可能所有标题都以粗斜体显示,而副标题仅以斜体显示)
edgarWebR 返回一个数据框,其中每个元素对应于一行,包含文本和 html。一些html的例子:
<p style="margin-top:18px;margin-bottom:0px"><font style="font-family:ARIAL" size="2"><b><i>Our quarterly operating results have fluctuated in the past and might continue to fluctuate, causing the value of our common stock to decline substantially. </i></b></font></p>
正如我们所看到的,上面应该标记为粗体和斜体。然而,这在不同的文件中表现不同。例如,此文件用于<b>
表示粗体,而有些则表示字体重量 = 粗体。
处理这个问题的最佳方法是什么?是否有一个 R 包可以解析 HTML 并告诉我它是粗体和斜体,或者返回一个标签列表,这些标签是专门格式化标签(不是 span、p 等)。
或者,我如何根据手动编译的粗体和斜体(“粗体” <b>
,,强)指标列表检查每一行,并让它返回与每一行匹配的列表中的任何元素?
最后,我计划将值制成表格以确定标题级别。例如,如果我计算 100 个既没有粗体也没有斜体的元素,20 个只有 的元素<b>
,以及 10 个包含<b>
“斜体”的元素,我可以推断粗体和斜体代表这个特定文件的标题,而单独的粗体表示子标题。
r - 如何使用 edgarWebR 获取多个公司的信息
我正在尝试使用edgarWebR
包从 EDGAR 获取公司及其归档信息。特别是,我想使用包中的两个函数 -filing_information
和company_filings
.
我实际上cik
在不同的数据集中有数千个,但上面的两个函数都不能处理cik
. 这是一个例子——
我需要在函数中使用href
变量。filing_information
实际上,我试图以这种方式使用它-
但它不起作用。我收到了这条消息-
我实际上可以通过href
如下方式放置每个变量值来做到这一点
函数也是如此company_filings
,我只使用一个cik
- “1000045”,但在另一个文件中,我有数千个cik
我想运行该company_filings
函数的所有文件。手动这是不可能的,因为我有数千个cik
.
任何人都知道如何在 LARGE 向量上自动执行这两个功能。
谢谢
python - 使用 Python lxml 解析 XML
我正在尝试使用 python 库lxml解析 XML ,并希望结果输出位于数据框中。我对 python 和解析比较陌生,所以在我概述问题时请多多包涵。我尝试解析的原始 xml 可在此处获得
我有兴趣在“ invstOrSec ”中获得一些相关标签。下面是“ invstOrSec ”的一个实例的快照,其中标签“ curCd ”附带的文本是美元。
这相对简单,我目前的方法包括首先在字典中定义相关标签,然后将它们粗化为循环中的数据帧。
这是sec_info的前三行
姓名 | 雷 | curCd |
---|---|---|
日本人寿保险 | 549300Y0HHMFW3EVWY08 | 美元 |
劳埃德银行集团 | 549300PPXHEU2JF0AM85 | 美元 |
安桥公司 | 98TPTUM4IVMFCZBCUR27 | 美元 |
但是,当货币不是美元时,xml 的结构略有不同。请参见下面的示例。
这次curCd被一个不同的标签 currencyConditional替换,它包含与文本相反的属性。我很难解释这些情况,同时保持我的代码尽可能通用。我希望我已经设法说明了这个问题。再次,如果这太初级,请原谅我。任何帮助将非常感激。
r - 从他们的 10-K 报告中提取多家公司的业务描述(项目 1)
我正在尝试使用 R 包 edgar 从他们的 10-K 报告中提取多家公司的业务描述。我正在使用 getBusinDescr 函数来执行此操作。但是,我只能提取第 1 项(业务描述)和第 1A 项(风险因素)。有谁知道如何操纵函数“getBusinDescr”的代码来只检索项目1?解析必须以某种方式结束于“Item 1A. Risk Factors”。
python - 在 python 中可视化使用 edgar 库抓取的数据的问题
我目前正在尝试使用 Python 中的 edgar 库从 SEC EDGAR 数据库下载 S1 文件。我尝试运行库项目描述中给出的示例代码,如下所示:
该代码似乎有效,但我无法理解如何在将文档保存为变量后检索该文档。键入 docs 返回 <Element sec-document at 0x7f8bbd0de720>。
任何帮助将不胜感激!
python - 下载 SEC 数据时出现递归错误
我目前正在尝试使用 sec_edgar_downloader 库从 SEC EDGAR 下载 S-1 文件。我有一个由 CIK 值组成的 pandas DataFrame,对于每个值,我想在可用时下载相关的 S-1。为了检查哪些公司没有它,我添加了一个新列,当找到并下载文件时等于 1,否则为 0。我运行的代码是
其中 tryconvert() 是一个定义为的函数
CIK_check() 是一个定义为的函数
CIK_check 在可用时执行下载文件的操作,并返回表示是否成功的二进制值。我必须添加 tryconvert() 以尝试解决在尝试运行代码时最终出现的错误,其中会引发以下错误:
但是,这不起作用,因为我仍然收到此错误,这使得无法完成我尝试执行的任务。错误的原因可能是什么?(不幸的是,鉴于它是 pandas DataFrame 上的 apply 函数,尚不清楚在哪个条目引发错误)。是否有另一种方法可以克服 RecursionError 而不必停止计算并将其简单地视为标记为 0 的失败下载?