问题标签 [edgar]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 清理 SEC 文件
我目前正在尝试清理 10-K 文件(确切地说是 2690)以获得纯文本(没有 html-tags 等)。其中,我想在下一步计算可读性分数。然而,清理文本正在成为一个比我想象的更大的问题。由于建议不要将正则表达式用于 html 文件,因此我尝试了使用 get_text 方法的 BeautifulSoup:
这适用于一小部分文本,但随后我得到以下混乱:
这个问题是否有一个优雅的解决方案,或者我是否必须使用正则表达式并尝试获取可用于进一步分析的版本中的文本?
python - 如何使用从 EDGAR 导入的字典,使用他们的 API
我对 python 很陌生,所以这可能是一个愚蠢的简单问题。我已经使用他们的 API 从 EDGAR-Online 导入了财务报表,并将其作为字典导入。我已经阅读了所有我能在字典上找到的内容,并理解了键:值关系。但是,数据采用以下格式:
"{'result': {'totalrows': 4, 'rows': [{'rownum': 1, 'values': [{'field': 'basicepsnetincome', 'value': 0.77}, {'field' : 'costofrevenue', 'value': 432592000.0}, {'field': 'dilutedepsnetincome', 'value': 0.76}, {'field': 'ebit', 'value': 28455000.0}, {'field': '毛利润','价值':186708000.0},{'field':'incomebeforeextraordinaryitems','value':22622000.0},{'field':'incomebeforetaxes','value':31356000.0},{'field':'incometaxes' ,“价值”:8734000.0},{“字段”:“净收入”,“价值”:22622000.0},...”
“字段”和“值”是我对字典的有限理解的键,但这意味着它们是同一个键的重复项。无论如何,我试图弄清楚如何从上述数据中提取值,例如值为“28455000.0”的“ebit”。我认为它应该是 {'ebit' : 28455000.0} 然后'ebit' 是引用 28455000.0 的键。任何有关如何从上述数据集中提取数据点(例如 ebit)的帮助,这些数据点可以引用到变量然后随后用于计算,我们将不胜感激。
使用 requests.get
代码:
打印(是)
返回上面列出的数据。
EDGAR API 文档的可能有用链接 - https://developer.edgar-online.com/docs/v1#nav8
python - 刮 1a. 10K 文件的风险因素
我正在努力获得1a。每个 10-K 文件中的风险因素部分。我已经下载了文件并将它们保存为txt。文件。
因此,文件夹 10 包含几个子文件夹(如 10),每个子文件夹(如 BKR)包含几个 10-K 作为 txt 文件。
我尝试了下面的代码来获取 1a.Risk Factors 部分,但它失败了。如果你能分享你的意见,我会很高兴。
我得到的错误信息:
'```
python - 解析非结构化txt文件并提取表格
我想解析来自 SEC 的旧式 EDGAR txt 文件,其中包含带有免费财务数据的不同文件,但是解析具有表格外观的 txt 并提取这些数据并非易事。
这是示例文件的链接
我创建了一个程序的开始,但它非常不稳定,需要针对不同情况进行大量调整。如果数据长度发生变化,除 2000 年而非 1999 年以外的任何其他类似文件都将失败,程序将中断。我不是程序员,我想知道是否有更健壮和可扩展的方法来解析这种类型的文本文件。谢谢
python - 如何在 python 中解析来自 EDGAR API 的 10-Q 报告?
我正在尝试使用 EDGAR API 检索任何给定公司的 10-Q(对应于提供的 CIK 值。)此代码检索特斯拉的最新 10-Q。该对象附加了大约 30 个方法,例如键、值、项目和 text_content。Text_content 似乎是唯一一个不返回空列表的[]
。但是,文本不容易解析,因为 10-Q 因一家公司而异。
毫无疑问,有人会评论:我为什么要设置no_of_documents=2
?如果此参数设置为 1,将返回错误的文档(不是 10-Q)。对于任何大于 1 的参数,将检索实际的 10-Q。我不知道为什么 API 会这样。
我想做的是 (A) 打印出原始 XML 以查看其底层结构,然后使用xmltodict
or解析xml.etree.ElementTree
。但是,我收到以下错误。
使用 ET
使用 XMLtoDict
同样,我的目标是搜索导航 XML 内容,但是,在不知道标签是什么的情况下,我有点卡住了。我该如何进行?
python - 从 url 响应(文本文件)解析 XML 错误,开始时带有 HTML 块
我正在尝试从 SEC Edgar 的数据库中抓取文件。我可以使用请求获取文本文件。当我尝试使用以下代码解析文件时,出现解析错误。当我请求 .xml url 而不是 .txt url 时,相同的代码有效。Url有以下内容:
我的代码:
错误:
python - 为什么这个 Beautiful Soup 代码不能解析我的目标文本?
我正在尝试在这个 10K 文件中选择“属性”部分的标题;一旦从那里选择,我打算抓取该部分中的文本(即“属性”和“法律诉讼”部分标题之间的所有文本。
当我运行下面的代码时,我得到 IndexError 'list index out of range' 但我不明白为什么,因为文本“PROPERTIES”似乎在一个“p”标签内。我也尝试过使用 'id="ITEM_2_PROPERTIES"' 而不是 text= 但这也不起作用
我哪里错了?
python - 为什么这个 Beautiful Soup 代码没有得到目标数据?
我正在尝试使用 Beautiful Soup 来获取 EDGAR 上 10K SEC 文件的“属性”部分中的文本。
我可以让 Properties 部分标题正常,并沿着父节点向上工作,但从那里 next_sibling 方法没有识别下一个兄弟(在这种情况下,我相信它包含该部分中的第一段文本)。有人可以告诉我为什么这不起作用/如何解决?
代码:
预期结果:
python - 来自网络文本文档的字数统计结果为 0
我尝试了 Rasha Ashraf 文章“Scraping EDGAR with Python”中的 Python 代码。我猜他使用了现在在 python 3 中无效的 urllib2。因此,我将其更改为 urllib。
我可以带以下 Edgar 网页。但是,无论我如何尝试修复代码,字数统计的结果都是 0。请帮我解决这个问题。仅供参考,我在 URL 页面上手动检查,以便“地址”、“类型”和“交易”分别出现 5 次、9 次和 49 次。尽管如此,我的错误 python 结果显示这三个单词的结果为 0。
这是我修改的Rasha Ashraf的python代码(只有urllib部分和网址)。原始 URL 包含大量文本内容。所以我把它改成了一个更简单的网页页面。
=>到目前为止我的代码的结果
python-3.x - Scraping EDGAR with Python codes (Program 2) not working
I tried the python codes from the article of Rasha Ashraf "Scraping EDGAR with Python". Yesterday I got helped from you great developer(s). Specially Thanks for Jack Fleeting. The links related to this problem are as follows:
Text Scraping (from EDGAR 10K Amazon) code not working
word count from web text document result in 0
Here is the 2nd Python program from the same article above and still...not working due to the Python version difference, I suppose.
My problem is that I met the initial error called "TypeError: a bytes-like object is required, not 'str' ". I searched StackOverflow and applied one method and another. However, once one error message was gone, the other errors occurred. After I improvised multiple code changes, the result for "print(element4)" showed "None". Which is not the result intended by the author.
My puny trial to correct the original codes proved not working. Thus, here I upload the original codes and the first error message. Once you helped me to solve the initial error message, then I will keep going on solving the 2nd, 3rd, and so on.
I usually have been dealing with numeric variables and categorical ones in the CSV file format with Python. Thus, this web scraping Python program (especially dealing and gathering URLs) is beyond my ability for now in a sense. Please help me to get the result of "element4" other than "None". Then I can have the proper paths of the (10-K) filing of Amazon in the year of 2013.
--- Error Message ---