“edgar”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

445 浏览

parsing - 用 python 从（Edgar 13-F 文件）TXT（2013 年之前）中提取控股表

我正在从 EDGAR 上的 13-F 表格中提取一份持股表。2013 年之前的馆藏以 txt 文件的形式提供（参见示例）。我的目标是一个 pd.DataFrame，其形状与 txt 文件中的“Form 13F 信息表”相同（10 列，每行在单独的行中）。

我曾尝试使用 BeautifulSoup，它将表格转换为标签对象，但我无法弄清楚如何将其格式化以进入数据框，如上所述。

这是我的代码尝试：

当el返回以下内容时，这就是我卡住的地方。我不能用 \n 来拆分它，因为公司名称中经常有 \n (AMERICAN\n EXPRESS CO)。

\ namerican \ n Express CO com 025816109 112,209 1,952,142共享定义4 1,952,142-- \ \ Namerican \ n Express CO CO com 025816109 9909 990,116 990,116 17,225,400共享4，5 17,317,17,17,119,48 \ n 8,9,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4 n n n v n n \ n.4,4,4,4,4,4,4,4,4,4,4,4,4,4,4,4 n n n n n n n v , 7 839,832 - -\nAMERICAN\n EXPRESS CO COM 025816109 111,689 1,943,100 Shared-Defined 4, 8, 11 1,943,100 - -\nAMERICAN\n EXPRESS CO COM 025816109 459,532 7,994,634 Shared-Defined 4, 10 7,994,634 - -\nAMERICAN\n EXPRESS CO COM 025816109 6,912,308 120,255,879 共享定义 4, 11 120,255,879 - -\n美国\n EXPRESS CO COM 025816109 80,456 1,399,713 共享定义 4, 13 1,399,713 - -\nARCHER DANIELS\n Midland CO COM 039483102 163,151 5,956,600 共享定义 4, 5, 5, 95 纽约银行\n CORP COM 064058100 206,661 8,041,300 共享定义的 4 8,041,300 - -\n纽约梅隆银行\n 纽约梅隆银行\n CORP COM 064058100 46,104 1,793,915 共享定义的 2, 4, 11 1,793,915 纽约梅隆银行 -\n\n CORP COM 064058100 251,827 9,798,700 共享定义 4, 8, 11 9,798,700 - -\nCOCA COLA CO COM 191216100 29,000 800,000 共享定义的 4 800,000 - -\n

我将非常感谢任何建议。

2020-11-22T10:12:14.090

0 投票

0 回答

307 浏览

python - Python Edgar包——获取CIK号

我正在阅读 Edgar sec 的 S-1 文件。我从彭博获得我的初始数据。通过公司名称，我可以使用术语get_cik_by_company_name(company_name: str)查找匹配的 CIK 编号。我应该能够获得我想要保存在列表中的 CIK 编号 -> cik_list。但是它不起作用 - str 的语法无效。

BloombergList 是使用所有相关公司名称创建的 Excel Bloomberg。在第 4 列中，我得到了作为列表导入的名称，而不是获取匹配的 CIK，然后以正确的顺序将 CIK 列表导出回 BloombergList - 理论上。

如果有人可以提供帮助，我很高兴。提前致谢。

python edgar sec

2020-12-04T09:37:55.420

0 投票

1 回答

403 浏览

python-3.x - ModuleNotFoundError：没有名为“edgar”的模块

我正在尝试安装 Python Edgar 库

我使用了以下代码

我收到以下错误

等等

我不知道当我跑步时有什么问题

我得到了错误

python-3.x edgar

2020-12-06T15:37:01.297

0 投票

0 回答

51 浏览

named-entity-recognition - “合并财务数据”和“表格 8-K”以及类似的法律术语是否算作命名实体（用于命名实体识别）？

感谢您的帮助。我正在做一些命名实体标记，并遇到了一些模棱两可的术语。我主要遵循 CoNLL2003 注释指南和 MUC-7 命名实体定义（其他注释指南大多与这些指南共享相同的想法）

https://www.clips.uantwerpen.be/conll2003/ner/

https://www-nlpir.nist.gov/related_projects/muc/proceedings/ne_task.html

对于例句“我在北美和南美做生意”，我应该如何标记“北美和南美”？整个短语作为一个“位置”实体，还是“北”和“南美洲”作为两个“位置”实体？

我正在标记一些法律报告（来自美国证券交易委员会的 EDGAR 数据集），所以我遇到了诸如“Form 10”、“Form 8-K”之类的短语，它们是美国公司的法律表格类型。这些是否应该被视为“杂项”命名实体？

在这些表格中，有“合并财务报表”、“管理层讨论与分析”等章节名称，是否应标记为“杂项”？

如果是，那么诸如“年度报告”、“股东年度会议”、“普通股”、“限制性股票单位”之类的短语就会变得非常模糊。可以说它们是一种“法律文件”的名称，或者是一种“金融工具”的名称。但是这些短语在某种程度上是通用的，并没有指出一个特定的实体。它们应该是“杂项”还是“在命名实体之外”（不是命名实体）？

named-entity-recognition edgar

2020-12-31T09:01:11.677

0 投票

1 回答

176 浏览

html - R - 检查 HTML 格式标签（粗体、斜体等）

我正在使用 edgarWebR 解析 10K (SEC EDGAR) 文件。我正在尝试编写一个算法来通过检查文档的格式来推断每个 HTML 元素是普通文本、副标题还是标题（例如，一些 10Ks 可能所有标题都以粗斜体显示，而副标题仅以斜体显示）

edgarWebR 返回一个数据框，其中每个元素对应于一行，包含文本和 html。一些html的例子：

Our quarterly operating results have fluctuated in the past and might continue to fluctuate, causing the value of our common stock to decline substantially. 

正如我们所看到的，上面应该标记为粗体和斜体。然而，这在不同的文件中表现不同。例如，此文件用于表示粗体，而有些则表示字体重量 = 粗体。

处理这个问题的最佳方法是什么？是否有一个 R 包可以解析 HTML 并告诉我它是粗体和斜体，或者返回一个标签列表，这些标签是专门格式化标签（不是 span、p 等）。

或者，我如何根据手动编译的粗体和斜体（“粗体” ，，强）指标列表检查每一行，并让它返回与每一行匹配的列表中的任何元素？

最后，我计划将值制成表格以确定标题级别。例如，如果我计算 100 个既没有粗体也没有斜体的元素，20 个只有的元素，以及 10 个包含“斜体”的元素，我可以推断粗体和斜体代表这个特定文件的标题，而单独的粗体表示子标题。

html r web-scraping edgar sec

2021-01-31T16:05:04.690

0 投票

1 回答

104 浏览

r - 如何使用 edgarWebR 获取多个公司的信息

我正在尝试使用edgarWebR包从 EDGAR 获取公司及其归档信息。特别是，我想使用包中的两个函数 -filing_information和company_filings.

我实际上cik在不同的数据集中有数千个，但上面的两个函数都不能处理cik. 这是一个例子——

我需要在函数中使用href变量。filing_information

实际上，我试图以这种方式使用它-

但它不起作用。我收到了这条消息-

我实际上可以通过href如下方式放置每个变量值来做到这一点

函数也是如此company_filings，我只使用一个cik- “1000045”，但在另一个文件中，我有数千个cik我想运行该company_filings函数的所有文件。手动这是不可能的，因为我有数千个cik.

任何人都知道如何在 LARGE 向量上自动执行这两个功能。

谢谢

r edgar

2021-02-25T17:12:48.717

0 投票

1 回答

363 浏览

python - 使用 Python lxml 解析 XML

我正在尝试使用 python 库lxml解析 XML ，并希望结果输出位于数据框中。我对 python 和解析比较陌生，所以在我概述问题时请多多包涵。我尝试解析的原始 xml 可在此处获得

我有兴趣在“ invstOrSec ”中获得一些相关标签。下面是“ invstOrSec ”的一个实例的快照，其中标签“ curCd ”附带的文本是美元。

这相对简单，我目前的方法包括首先在字典中定义相关标签，然后将它们粗化为循环中的数据帧。

这是sec_info的前三行

姓名	雷	curCd
日本人寿保险	549300Y0HHMFW3EVWY08	美元
劳埃德银行集团	549300PPXHEU2JF0AM85	美元
安桥公司	98TPTUM4IVMFCZBCUR27	美元

但是，当货币不是美元时，xml 的结构略有不同。请参见下面的示例。

这次curCd被一个不同的标签 currencyConditional替换，它包含与文本相反的属性。我很难解释这些情况，同时保持我的代码尽可能通用。我希望我已经设法说明了这个问题。再次，如果这太初级，请原谅我。任何帮助将非常感激。

python xml parsing lxml edgar

2021-03-09T01:02:56.717

0 投票

1 回答

210 浏览

r - 从他们的 10-K 报告中提取多家公司的业务描述（项目 1）

我正在尝试使用 R 包 edgar 从他们的 10-K 报告中提取多家公司的业务描述。我正在使用 getBusinDescr 函数来执行此操作。但是，我只能提取第 1 项（业务描述）和第 1A 项（风险因素）。有谁知道如何操纵函数“getBusinDescr”的代码来只检索项目1？解析必须以某种方式结束于“Item 1A. Risk Factors”。

r parsing edgar

2021-03-18T17:18:49.263

0 投票

0 回答

63 浏览

python - 在 python 中可视化使用 edgar 库抓取的数据的问题

我目前正在尝试使用 Python 中的 edgar 库从 SEC EDGAR 数据库下载 S1 文件。我尝试运行库项目描述中给出的示例代码，如下所示：

该代码似乎有效，但我无法理解如何在将文档保存为变量后检索该文档。键入 docs 返回 <Element sec-document at 0x7f8bbd0de720>。

任何帮助将不胜感激！

python edgar

2021-03-27T19:27:26.710

0 投票

0 回答

58 浏览

python - 下载 SEC 数据时出现递归错误

我目前正在尝试使用 sec_edgar_downloader 库从 SEC EDGAR 下载 S-1 文件。我有一个由 CIK 值组成的 pandas DataFrame，对于每个值，我想在可用时下载相关的 S-1。为了检查哪些公司没有它，我添加了一个新列，当找到并下载文件时等于 1，否则为 0。我运行的代码是

其中 tryconvert() 是一个定义为的函数

CIK_check() 是一个定义为的函数

CIK_check 在可用时执行下载文件的操作，并返回表示是否成功的二进制值。我必须添加 tryconvert() 以尝试解决在尝试运行代码时最终出现的错误，其中会引发以下错误：

但是，这不起作用，因为我仍然收到此错误，这使得无法完成我尝试执行的任务。错误的原因可能是什么？（不幸的是，鉴于它是 pandas DataFrame 上的 apply 函数，尚不清楚在哪个条目引发错误）。是否有另一种方法可以克服 RecursionError 而不必停止计算并将其简单地视为标记为 0 的失败下载？

python edgar recursionerror

2021-03-30T09:41:24.320

问题标签 [edgar]

Reference