0

我是编程新手(尽管我愿意学习),所以提前为我的基本问题道歉。

[SEC 通过 FTP 提供所有文件][1],最终,我想批量下载这些文件的一个子集。但是,在创建这样的脚本之前,我需要为这些文件的位置生成一个列表,这些文件遵循以下格式:

/edgar/data/51143/000005114313000007/0000051143-13-000007-index.htm

  • 51143 = 公司 ID,我已经通过 FTP 访问了我需要的公司 ID 列表
  • 000005114313000007/0000051143-13-000007 = 报告 ID,又名“登录号”

我正在努力解决这个问题,因为文档很简单。如果我已经有了000005114313000007/0000051143-13-000007(美国证券交易委员会称之为“入藏号”),那么这很简单。但我正在寻找约 45k 条目,显然需要为给定的CIK ID(我已经拥有)自动生成这些条目。

有没有一种自动化的方法来实现这一点?

4

1 回答 1

0

欢迎来到 SO。

我目前正在抓取同一个网站,所以我将解释我到目前为止所做的事情。我假设您将获得您要抓取的公司的 CIK 编号。如果您搜索该公司的 CIK,您将获得该公司可用的所有文件的列表。让我们以 Apple 为例(因为他们有大量文件):

链接到 Apple 的文件

从这里您可以设置搜索过滤器。您链接的文档是 10-Q,所以让我们使用它。如果您过滤 10-Q,您将获得所有 10-Q 文档的列表。您会注意到 URL 略有变化,以适应过滤器。

您可以使用 Python 及其网络抓取库获取该 URL 并抓取该页面上表格中文档的所有 URL。对于这些链接中的每一个,您都可以从页面上刮下您想要的任何链接或信息。我个人使用 BeautifulSoup4,但是如果您选择 Python 作为您的编程语言,lxml 是网页抓取的另一种选择。我建议使用 Python,因为它很容易学习基础知识和一些中级编程结构。

过去,这个项目是你的。祝你好运,我在下面发布了一些链接来帮助你入门。我只允许发布两个链接,因为我是该网站的新手,所以我会给你漂亮的汤链接:

美汤首页

如果您选择使用 Python 并且对这门语言不熟悉,请查看 codecademy python 课程,并且不要忘记查看 lxml,因为有些人更喜欢它而不是 BeautifulSoup(有些人也将两者结合使用,所以这都是个人喜好问题)。

于 2016-05-30T16:34:07.230 回答