0

我正在尝试从以下链接中抓取 SEC FORM 13-F 信息表中的数据:

https://sec.report/Document/0001567619-21-010281/

我尝试了以下脚本:

library(timetk)
library(tidyverse)
library(rvest)
url <- "https://sec.report/Document/0001567619-21-010281/"
url <- read_html(url)
raw_data <- url %>%
  html_nodes("#table td") %>%
  html_text()

但是,我无法获取数据组件,并且在值下,它说raw_data是空的。任何帮助,将不胜感激。

4

2 回答 2

0

数据存在于响应中。您可以使用 CSS属性 = 值选择器来定位嵌套表。您将需要决定最有可能(或不!)需要转换为单个标题的前三行决定什么

library(rvest)
library(magrittr)

page <- read_html("https://sec.report/Document/0001567619-21-010281/")

table <- page %>%
  html_node('[summary="Form 13F-NT Header Information"]') %>%
  html_table(fill = T)
于 2021-07-03T15:43:40.810 回答
-1

从 html 页面使用 13F 更容易这里是一个例子

import pandas as pd
import requests
import numpy as np


# Makes a request to the url
url="https://www.sec.gov/Archives/edgar/data/1541617/000154161721000009/xslForm13F_X01/altcap13f3q21infotable.xml"
request = requests.get(url, headers={"User-Agent": "Mozilla/5.0"})

# Pass the html response into read_html
tables = pd.read_html(request.text)
df = tables[3] 
于 2022-01-01T21:24:46.187 回答