6

我正在寻找一个与 jQuery 或 Cheerio 具有相似 API 和用法的库。

我的用例是:为包含 javascript/css 文件引用的任何脚本或链接标签解析 HTML 文件。

4

2 回答 2

11

jQuery 的 Python 等效项是pyQuery。在该链接下,您可以找到使用示例。您还可以访问GitHub 上的 PyQuery

于 2013-03-21T23:08:44.540 回答
5

虽然pyQuery是 jQuery 等价物,但从您的用例来看,我认为可能像BeautifulSoup这样的东西可能更适合您想要做的事情。

以下摘自美丽汤官方网站:

Beautiful Soup 是一个 Python 库,专为屏幕抓取等快速周转项目而设计。三个功能使其功能强大:

  1. Beautiful Soup 提供了一些用于导航、搜索和修改解析树的简单方法和 Pythonic 习惯用法:用于剖析文档和提取所需内容的工具包。编写应用程序不需要太多代码

  2. Beautiful Soup 自动将传入文档转换为 Unicode,将传出文档自动转换为 UTF-8。您不必考虑编码,除非文档未指定编码并且 Beautiful Soup 无法自动检测编码。然后你只需要指定原始编码。

  3. Beautiful Soup 位于流行的 Python 解析器(如 lxml 和 html5lib)之上,允许您尝试不同的解析策略或以速度换取灵活性。

Beautiful Soup 解析你给它的任何东西,并为你做树遍历的东西。您可以告诉它“查找所有链接”,或“查找类 externalLink 的所有链接”,或“查找所有 url 匹配“foo.com”的链接,或“查找带有粗体文本的表格标题,然后给出我那条短信。”

于 2013-03-21T23:09:11.543 回答