问题标签 [sec]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 如何在特定字符之后剪切R中的所有行/字符
我目前正在学习一门在 R 中教授文本分析的课程。由于我对 R 相当陌生,所以我还不知道如何在一组特定字符之后剪切所有行。
例如,我给出了以下内容:
我想要的结果是:
到目前为止,我已经尝试了以下方法,但它并没有让我到任何地方。
任何提示将不胜感激。
r - 使用 R 在多行中查找模式
我正在尝试识别多行的模式,确切地说是 2 行。由于任一行中的模式都不是唯一的,因此我正在使用这种方法。
到目前为止,我已经尝试使用函数“grep”,但我认为我在这里缺少正确的正则表达式。
这部分是 edgar 包函数“getfillings”的修改版本,并尝试仅提取管理层的评论/项目 2 以获得季度结果。如果可能的话,我会在 ...2[^A]
在对新行做出反应的函数中包含一些内容,然后是字符串“Management...”
我拥有的普通 txt 中的模式如下所示:
项目二
、管理层对财务状况和经营成果的讨论与分析
对于如何在 R 的正则表达式中最好地捕获这一点,我将不胜感激。
示例输入如下所示:
21 第 2 项
管理层对财务状况和经营成果的讨论与分析 本节及本季度报告的其他部分 表 10 第 3 项
市场风险的定量和定性披露 公司市场风险未发生重大变化
并且期望的输出是
管理层对财务状况和经营成果的讨论和分析 本节和本季度报告的其他部分,表格 10
我需要匹配“第 2 项......管理讨论”,因为第 2 项不是唯一的。如何跨两行制定正则表达式?
database - 在 SEC 网站上找不到引用的 R 文件?
我试图了解在此处找到的 2020q1 数据集:https ://www.sec.gov/dera/data/financial-statement-data-sets.html ,并使用 2020q1 文件夹中的参考文档作为“自述文件” “ 文件。参考文档指定在 Presentation (pre) 数据集中,“report”字段是一个数字(整数),其“值是指 EDGAR 网站上发布的“R 文件”。经过大量搜索后,我没有找到这样的文件,也没有办法解释“报告”字段和所有相关数据。如果可能,请链接到相应的 R 文件或引导我朝着正确的方向寻求帮助。谢谢!
parsing - Bigquery SEC 归档数据集中似乎缺少数据
我最近很高兴地发现 Bigquery 托管了SEC 文件的数据集。但是,我无法在数据集中找到文件的实际文本!这似乎很明显,我一定错过了一些东西。
例如,在 SEC 网站上提交的 2018 年 Microsoft 10-K 文件本身可以看到 10-K 文本,其中第 7 项包括“管理层对财务状况和结果的讨论和分析”。我在数据集中搜索了这个短语。
首先,以下查询应该从该文件中提取所有文本:
但是,当搜索上述短语时,此查询的结果一无所获。
基于另一个 StackOverflow 答案的第二次尝试给了我这个,我尝试在整个数据集中搜索该短语,以防它存储在不同的表中:
没有结果!
我可以清楚地找到相同的 SEC 文件,但其中的内容似乎丢失了。我也搜索了其他短语和部分,文本似乎不存在。然而,基于我认为应该的所有谷歌文档。我错过了什么?
或者,有人知道解析 SEC 10-K 文件等部分的其他来源吗?这也很有用,您也可以用它来回答这个问题。
sec - pinpoll 民意调查的可信度如何
我最近正在研究在线民意调查的安全问题和在线选举的问题,以及它们有时如何很容易被篡改。
现在我突然发现,我访问的许多网站甚至我所在地区的当地报纸都使用“pinpoll”进行在线民意调查。
所以我想知道这些民意调查的可信度和安全性如何?
r - XBRL/Finstr 问题与 R 中的 SEC 数据有关
我正在尝试使用 R 中的 finstr 包从 SEC 站点下载 XBRL 数据。
小插图引用了 2013-14 年的 Apple 财务报表。我要为我的雅培(CIK 1800)。我查看了 SEC 网站上的数据记录,提交的文件位于此文件夹中:
Apple xml 文件被命名aapl-20140927.xml
(CIK 后跟提交日期)。我已经通过浏览器进入文件并识别了相关数据。
具有相同信息的 Abbott xml 文件名为abt-20191231x10k59d41b_htm.xml
,同样带有相关数据。
在小插图之后,我添加了以下代码:
然后返回:
我在这里阅读了其他提交的内容,不确定这是否是架构问题,我是否找到了错误的文件(文件夹中没有其他文件包含全部信息)或者是否是其他文件。
我还注意到一条评论说 SEC 网站上的数据集https://www.sec.gov/dera/data/financial-statement-data-sets.html
包含所有相关信息。这些集合的问题在于它们是提交的数据而不是批准的数据,因此可能与发布的最终结果不同。
感谢任何可能的帮助。
python-3.x - Scraping EDGAR with Python codes (Program 2) not working
I tried the python codes from the article of Rasha Ashraf "Scraping EDGAR with Python". Yesterday I got helped from you great developer(s). Specially Thanks for Jack Fleeting. The links related to this problem are as follows:
Text Scraping (from EDGAR 10K Amazon) code not working
word count from web text document result in 0
Here is the 2nd Python program from the same article above and still...not working due to the Python version difference, I suppose.
My problem is that I met the initial error called "TypeError: a bytes-like object is required, not 'str' ". I searched StackOverflow and applied one method and another. However, once one error message was gone, the other errors occurred. After I improvised multiple code changes, the result for "print(element4)" showed "None". Which is not the result intended by the author.
My puny trial to correct the original codes proved not working. Thus, here I upload the original codes and the first error message. Once you helped me to solve the initial error message, then I will keep going on solving the 2nd, 3rd, and so on.
I usually have been dealing with numeric variables and categorical ones in the CSV file format with Python. Thus, this web scraping Python program (especially dealing and gathering URLs) is beyond my ability for now in a sense. Please help me to get the result of "element4" other than "None". Then I can have the proper paths of the (10-K) filing of Amazon in the year of 2013.
--- Error Message ---
python - Python Edgar包——获取CIK号
我正在阅读 Edgar sec 的 S-1 文件。我从彭博获得我的初始数据。通过公司名称,我可以使用术语get_cik_by_company_name(company_name: str)查找匹配的 CIK 编号。我应该能够获得我想要保存在列表中的 CIK 编号 -> cik_list。但是它不起作用 - str 的语法无效。
BloombergList 是使用所有相关公司名称创建的 Excel Bloomberg。在第 4 列中,我得到了作为列表导入的名称,而不是获取匹配的 CIK,然后以正确的顺序将 CIK 列表导出回 BloombergList - 理论上。
如果有人可以提供帮助,我很高兴。提前致谢。
python - python有没有办法删除csv文件中的几行?
我目前正在从 sec.gov 下载 2016 年第一季度的 form.idx 文件。由于我只对 10-Ks 感兴趣,我想将文件下载为 .csv 文件并删除无用的行。我尝试按表单类型进行过滤,但没有成功。
到目前为止,我的代码如下:
也许有一种方法可以删除文件中我不需要的行?否则,我也很感谢在这个问题上提供的任何帮助。
提前谢谢了。
亲切的问候,埃琳娜
html - R - 检查 HTML 格式标签(粗体、斜体等)
我正在使用 edgarWebR 解析 10K (SEC EDGAR) 文件。我正在尝试编写一个算法来通过检查文档的格式来推断每个 HTML 元素是普通文本、副标题还是标题(例如,一些 10Ks 可能所有标题都以粗斜体显示,而副标题仅以斜体显示)
edgarWebR 返回一个数据框,其中每个元素对应于一行,包含文本和 html。一些html的例子:
<p style="margin-top:18px;margin-bottom:0px"><font style="font-family:ARIAL" size="2"><b><i>Our quarterly operating results have fluctuated in the past and might continue to fluctuate, causing the value of our common stock to decline substantially. </i></b></font></p>
正如我们所看到的,上面应该标记为粗体和斜体。然而,这在不同的文件中表现不同。例如,此文件用于<b>
表示粗体,而有些则表示字体重量 = 粗体。
处理这个问题的最佳方法是什么?是否有一个 R 包可以解析 HTML 并告诉我它是粗体和斜体,或者返回一个标签列表,这些标签是专门格式化标签(不是 span、p 等)。
或者,我如何根据手动编译的粗体和斜体(“粗体” <b>
,,强)指标列表检查每一行,并让它返回与每一行匹配的列表中的任何元素?
最后,我计划将值制成表格以确定标题级别。例如,如果我计算 100 个既没有粗体也没有斜体的元素,20 个只有 的元素<b>
,以及 10 个包含<b>
“斜体”的元素,我可以推断粗体和斜体代表这个特定文件的标题,而单独的粗体表示子标题。