问题标签 [edgar]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
regex - 正则表达式仅在前面没有 D 时以任何顺序捕获行 A、B 或 C
我有一个文件,内容如下:
然后在文件的后面,它有这样的东西:
我需要做的是获取符合公司名称、中央索引键、IRS 编号、财政年度结束或我想要提取的任何内容,但仅限于主题公司部分,而不是报告所有者部分。这些行可能按任何顺序排列,也可能不存在,但如果它们存在,我想捕获它们的值。
我试图构建的正则表达式如下所示:
期望的结果如下:
任何形式的正则表达式都是可以接受的,因为我会适应最适合该场景的方法。感谢您阅读我的困境以及您可以提供的任何指导。
python - 从 10-k 中提取产品描述
我想从我的硕士论文的 10-k 报告中提取产品描述(编程方面的新手,金融背景)。此产品描述介于报告中的“项目 1”和“项目 2”之间。到目前为止,我所做的是以 .txt 格式下载所有 10-ks,删除 html 标签并使所有文本大写。我现在的问题是当我尝试选择我需要的文本并将其保存到另一个目录时。我尝试自己进行选择,但结果并不令人满意。目前,我正在使用 GitHub 上的“iammrhelo”人编写的代码。他的代码用于选择“ITEM 7”到“ITEM 8”。通过一些调整,让它搜索我需要的东西。链接到他的代码:https ://github.com/iammrhelo/edgar-10k-mda
我现在的问题是他的解析不适用于所有 10-ks。它适用于在这 10k 中选择产品描述:
为了提供一点上下文,我需要找到代码必须查找的正确语法。正在查找的语法在列表 item1_begins 中。我用来选择文本的代码如下:
text - SEC Edgar - 有人能帮我确定这段文字代表什么吗?
https://www.sec.gov/Archives/edgar/data/1383094/000119312518268345/0001193125-18-268345.txt
在以下字符上使用 ctrl+f 可以找到我不确定如何阅读的部分:M_]C_X0QQ17AI9@
这是我不熟悉的部分的开头,其中包含一长串文本字符,每行以“M”开头。
谢谢你的帮助!
python - 如何使用 Beautiful Soup 抓取 SEC 的 Edgar 数据库并接收 Desire 数据
提前为长时间的问题道歉 - 我是 Python 新手,我试图在相当具体的情况下尽可能明确。
我正在尝试定期从 SEC 文件中识别特定数据点,但是我想自动执行此操作,而不必手动搜索公司 CIK ID 和表格文件。到目前为止,我已经能够下载有关 SEC 在给定时间段内收到的所有文件的元数据。它看起来像这样:
尽管拥有所有这些信息,并且能够下载这些文本文件并查看基础数据,但我无法解析这些数据,因为它是 xbrl 格式并且有点超出我的控制范围。相反,我遇到了这个脚本(由本网站https://www.codeproject.com/Articles/1227765/Parsing-XBRL-with-Python友情提供):
只需运行此脚本即可完全按照我的意愿运行。它返回给定公司(在本例中为 IBM)的股东权益,然后我可以获取该值并将其写入 Excel 文件。
我的两部分问题是这样的:
- 我从上面的原始元数据表中取出三个相关列(CIK、类型和日期)并将其写入元组列表 - 我认为这就是它的名称 - 它看起来像这样 [('1009759', 'D', '20190215'),('1009891', 'D', '20190206'),...])。我如何获取这些数据,替换我找到的脚本的初始部分,并有效地循环遍历它,以便最终得到每个公司、归档和日期的所需值列表?
- 通常有更好的方法来做到这一点吗?我认为会有某种 API 或 python 包来查询我感兴趣的数据。我知道有一些关于 Form 10-Ks 和 Form 10-Qs 的高级信息但是我在 Form Ds 这有点晦涩难懂。我只是想确保我有效地将时间花在最好的解决方案上。
感谢您的帮助!
python - 通过列表循环名称
我有 3 行简单的代码,它们从 SEC 的“Edgar”数据库中提取 S-1 文件并将它们放入我指定的文件夹中。这使用“sec Edgar 下载器”。它效果很好,但我必须为大约 1400 家公司这样做。
我在单独的 Excel 电子表格中有代码列表。我认为必须有一种方法可以递归地执行此操作,以便它自动查找我拥有的所有代码。
看,我已经拥有的代码。我使用星巴克(它的股票代码“SBUX”)作为示例公司。我不想重做这 3 行 1,400 次并手动输入所有不同的代码。
我希望代码看起来像这样:
或者可能使用某种 for 循环结构等。
提前感谢所有帮助和建议!
xpath - 如何在绝对 xpath 中捕获特定节点的索引号
解释背景故事有点复杂 - 但有必要 - 所以需要一些耐心。
我正在尝试解析 SEC Edgar 文件(此表格 10-K,作为一个随机示例),不是针对其财务数据,而是针对文档末尾表格中包含的展品列表。每个文档在该表中都有我感兴趣的 3 个属性(展览编号、标题和 URL),但对于这个示例,我将只关注 URL。
开始查找文档中的所有 URL 很容易:
但是由于该文档可能包含数百个 URL,其中大多数是无关紧要的,因此我必须过滤结果以查找Archives
在所有 Edgar URL 中无一例外地出现的单词。所以在下一阶段,我得到了他们每个人的 xpath:
到目前为止一切都很好,但这就是我卡住的地方:事实证明,由于某些非常奇怪的原因,每个相关的 URL 都不是出现在一个而是两个(在某些文档中 - 最多四个!)表中,并且这些不幸的是,表格不是文档中的第一个或最后一个表格,而是随机卡在中间的某个地方。因此,例如,Exhibit 10-5 的 xpath 是:
所以 URL 在表 9 和表 12 中出现在完全相同的位置。显然,我不希望这个 URL 出现两次是我的最终 URL 列表,所以在我的最终搜索中我想运行
在此示例中,XXX
或者9
或的位置在哪里。12
回到问题的标题 - 我如何提取表的索引号,以便我可以为我的tree.xpath()
表达式选择更高(或更低)的索引号?或者,有没有办法停止getpath
表 9 的搜索?
python - 如何在文本文件中搜索关键字组合,提取上下行,然后使用 pandas 导出到 Excel
我试图从几个 SEC 10-K 文件中提取特定关键字组合之前和之后的 5 行,然后将该数据导出到 Excel 中,以便我可以进一步手动处理它。不幸的是,我不得不依赖 .txt 格式的文件而不是 .html 或 .xblr 文件,因为后者并不总是可用的。我已经下载并部分清理了 .txt 文件以删除不需要的标签。
简而言之,我的目标是告诉 python 遍历下载的 .txt 文件(例如,所有在同一个文件夹中的文件,或者只是提供一个包含所有文件名的引用 .txt 列表),打开每个文件,查找单词“累积效果”(理想情况下与其他关键字组合,见下面的代码),提取前后5行,然后将输出导出到excel中,文件名在A列,提取的段落在B列。
使用此代码,我设法为一个 .txt 文件(您可以在此处找到,以供参考)的关键字“累积效应”上方和下方提取 5 行。但是,我仍在努力自动化/循环整个过程并使用 pandas 将提取的文本导出到 Excel。
使用这行代码,我获得了我需要的段落,但我只设法将包含关键字的单行导出到 Excel,而不是整个文本。 这是 python 输出, 这是导出到 Excel 的文本。
如何创建循环并将感兴趣的整个段落正确导出到 excel 中?非常感谢提前!!
excel - 使用 Excel VBA 下载 SEC 文件 - 内联 XBRL 查看器问题
我正在尝试使用 Excel vba 从 SEC 网站下载 SEC 文件(10-K、8-K 等)。我正在使用 getelementsbytagname 来识别归档的 url。但是,当我使用“URLDownloadToFile”私有函数时,我无法下载文件,而是获得了不包含任何归档文本的“Inline XBRL Viewer.htm”文件。下面是我正在使用的代码:
以下是我正在使用的下载文件功能:
我正在尝试从此网页的顶部表格中的 Document 列中获取第一个 url:
https://www.sec.gov/Archives/edgar/data/769397/000076939719000016/0000769397-19-000016-index.htm
r - R edgar 包 - geBusinDescr 的问题
我想使用 R edgar 包和函数 getBusinDescr() 检索 74 家公司的业务描述部分。当我运行我的代码行时,所有文件都是通过 getFilings() 下载的。但是,随后出现以下错误:“writeLines(product.descr2, filename2) 中的错误:找不到对象‘product.descr2’”。是什么原因造成的,我该如何解决这个问题?提前感谢您的意见。PS-我提前为这个问题中的任何错误道歉。这是我关于堆栈溢出的第一个问题。我希望我已经按照规则提出了要求。
我在网上搜索了如何解决此错误,但找不到答案。但是,我确实找到了这个网页: https ://rdrr.io/cran/edgar/src/R/getBusinessDescr.R ,据我所知,它完整地描述了这个函数的代码。在这里,我找到了错误的可能位置:“writeLines(product.descr2, filename2)”。但是,我对代码的理解程度不足以知道如何解决此问题。
我希望输出显示一个包含基本归档信息的数据框和项目中名为“业务描述文本”的文件夹,其中包含每个公司的业务描述作为文本。但是,在这种情况下,该文件夹存在,但它是空的。在控制台中,显示以下错误消息:
此错误的根源是什么,我该如何解决?感谢您的反馈意见。
r - r edgar 错误:输入年份不是数字
我有一个包含 3 家公司(ciknum 变量)和每家公司提交年度报告的年份(fyearq)的“测试”数据框:
获得 MasterIndex 文件夹并运行此代码(请参阅建议的解决方案)后,我使用 R edgar 包获得 10-K 文件。我运行以下代码:
它不断吐出以下错误:Error: Input year(s) is not numeric
. 我检查了变量类型,似乎我的 fyearq 变量是数字的。
不太明白为什么 my_getFilings 函数不读取“数字” fyearq 变量。任何帮助将非常感激。
先感谢您。