问题标签 [pyquery]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

93 问题

0 投票

1 回答

389 浏览

python - 使用 requests_html 时无法按预期提取结果

我无法使用 requests_html 提取正确的结果：

我可以id在源内容中找到“productDetails_detailBullets_sections1”：

实际上，这个问题同样存在于 PyQuery 中。

为什么requests_html找不到这个元素？

2018-10-08T09:41:50.490

0 投票

2 回答

342 浏览

python - 通过pyquery获取具有特定属性的元素

我在 HTML 页面中有这样的内容：

如何获取所有具有data-name-en属性的元素？

python pyquery

2018-10-17T08:54:59.653

0 投票

1 回答

271 浏览

web-crawler - PyQuery html 如何选择（第二个标签，nth-child）

1.问题

我试图获得第二个价值c -5678-

html('v')[1].attr('c')

这将显示错误“HtmlElement”对象没有属性“attr”

那么我该怎么做呢？

2.问题

我试图找到如何解决第一个问题，但我遇到了另一个问题。

html('p:nth-child(1)').attr('id')

我得到'A'

html('p:nth-child(2)').attr('id')

我得到'D'

html('p:nth-child(3)').attr('id')

我什么都得不到

“B”和“C”在哪里？

我认为

html('p:nth-child(2)').attr('id')会得到'B'

html('p:nth-child(3)').attr('id')会得到'C'

html('p:nth-child(4)').attr('id')会得到'D'

但这是错误的

web-crawler pyquery

2019-01-08T12:34:07.013

0 投票

1 回答

21 浏览

css-selectors - 如何获取组最后一列元素

如何使用css选择器在python的每一行中找到相同元素中的最后一个元素？我正在使用包 pyquery。

我试过了tr td:nth-child(2) .score.fill:last-child，tr td:nth-child(2) .score.fill:nth-last-child(1)。都失败了。

我想得到这样的结果：

css-selectors pyquery

2019-01-23T09:10:11.443

0 投票

1 回答

131 浏览

python - PyQuery 不会返回页面上的元素

我已经设置了一个 Python 脚本来打开这个网页PyQuery。

但pqPage("li")只返回一个空白列表，[]. 同时，pqPage.text()显示页面的 HTML 文本，其中包含li元素。

为什么代码不会返回li元素列表？我如何让它做到这一点？

python python-3.x web-scraping pyquery

2019-08-11T22:48:14.780

0 投票

1 回答

139 浏览

python - 使用 Python 进行异步请求爬取

我要爬取链接： http ://data.eastmoney.com/hsgt/index.html

但是我发现XHR文档都是没有数据的，只有EventSteam，怎么爬取页面的完整信息。

例如，我想在页面上爬取-94.67。

我的代码如下：

然后我尝试安装dryscape但失败了，它说我没有网络服务器文件。

非常感谢您的帮助。

python web-crawler pyquery

2020-03-19T12:48:11.797

0 投票

1 回答

582 浏览

python - PyQuery 和 PDFQuery 从 XML 或 PDF 中的下一个兄弟中提取文本

我正在尝试使用包 PDFQuery 从 PDF 中提取信息。信息每次都不在同一个位置，所以我需要一个查询标签。首先，我编写了函数：

然后我写了一个函数来提取文本：

然而，问题是（出于某种原因）几乎所有数据都在下一个“LTTextHorizontal”上。

XML 如下所示：

这里的日期是 2020 年 2 月 26 日，但它在紧随其后的框中。如何创建一个函数来提取以下框？

python xml pdf pdfminer pyquery

2020-04-21T14:22:51.320

0 投票

1 回答

153 浏览

python - make_links_absolute() 导致绝对 URL 损坏

我需要将 HTML 页面中的相对 URL 转换为绝对 URL。我正在使用 pyquery 进行解析。

例如，这个页面http://govp.info/o-gorode/gorozhane在源代码中有相对 URL，比如

（这是页面底部的分页链接）。我正在尝试使用make_links_absolute()：

但这似乎打破了相对链接：

如您所见o-gorode，最终 URL 中间有两倍，肯定会产生 404 错误。

pyquery 内部使用urljoin标准urllib.parse模块，有点像这样：

没关系，但是有很多网站都有，嗯，具有完整路径的不寻常的相对链接。

在这种情况下urljoin会给我们一个无效的绝对链接：

我相信这样的相对链接不是很有效，但谷歌浏览器处理它们没有问题；所以我想这在网络上是很正常的。

有什么建议可以解决这个问题吗？我试过furl了，但它的加入也是一样的。

python relative-url pyquery

2020-06-04T12:58:06.373

0 投票

2 回答

128 浏览

python - 未定义的符号：导入 pyquery 时的 xsltGetProfileInformation

我正在尝试在 Python 3.8.3 上使用 pyquery，但由于以下原因而失败：

操作系统是 CoreELEC，所以没有“apt-get”，只有 OpenWRT 中的“opkg install”。

尝试重新安装 lxml 和 pyquery，但没有成功。问题在哪里？

python xslt lxml pyquery

2020-06-20T18:56:12.800

0 投票

1 回答

185 浏览

python - 使用 pyquery 库或 beautifulsoup 解析 HTML 元素。或不同的选择

我想解析 div1 并得到它的文本（如果它有一个并且我想保留{name_class: tag1 (or None), text: None}），我重申：{name_class: tag2 , text: yes}, {name_class: tag3 , text: no}

我解决此问题的代码：

type(tryy) = lxml.etree._Element' 但问题是：lxml.etree._Element.text不要在 div2 中保留“是”

我试过了，但它不适用于 bs4 只从这个元素中提取文本，而不是它的子元素

欢迎任何图书馆的所有解决方案

python beautifulsoup lxml pyquery

2021-02-09T21:55:10.857

1 2 3 4 5 6 7 8 9 10

问题标签 [pyquery]

Reference