问题标签 [pyquery]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
389 浏览

python - 使用 requests_html 时无法按预期提取结果

我无法使用 requests_html 提取正确的结果:

我可以id在源内容中找到“productDetails_detailBullets_sections1”:

实际上,这个问题同样存在于 PyQuery 中。

为什么requests_html找不到这个元素?

0 投票
2 回答
342 浏览

python - 通过pyquery获取具有特定属性的元素

我在 HTML 页面中有这样的内容:

如何获取所有具有data-name-en属性的元素?

0 投票
1 回答
271 浏览

web-crawler - PyQuery html 如何选择(第二个标签,nth-child)

1.问题

我试图获得第二个价值c -5678-

html('v')[1].attr('c')

这将显示错误“HtmlElement”对象没有属性“attr”

那么我该怎么做呢?

2.问题

我试图找到如何解决第一个问题,但我遇到了另一个问题。

html('p:nth-child(1)').attr('id')

我得到'A'

html('p:nth-child(2)').attr('id')

我得到'D'

html('p:nth-child(3)').attr('id')

我什么都得不到

“B”和“C”在哪里?

我认为

html('p:nth-child(2)').attr('id')会得到'B'

html('p:nth-child(3)').attr('id')会得到'C'

html('p:nth-child(4)').attr('id')会得到'D'

但这是错误的

0 投票
1 回答
21 浏览

css-selectors - 如何获取组最后一列元素

如何使用css选择器在python的每一行中找到相同元素中的最后一个元素?我正在使用包 pyquery。

我试过了tr td:nth-child(2) .score.fill:last-childtr td:nth-child(2) .score.fill:nth-last-child(1)。都失败了。

我想得到这样的结果:

0 投票
1 回答
131 浏览

python - PyQuery 不会返回页面上的元素

我已经设置了一个 Python 脚本来打开这个网页PyQuery

pqPage("li")只返回一个空白列表,[]. 同时,pqPage.text()显示页面的 HTML 文本,其中包含li元素。

为什么代码不会返回li元素列表?我如何让它做到这一点?

0 投票
1 回答
139 浏览

python - 使用 Python 进行异步请求爬取

我要爬取链接: http ://data.eastmoney.com/hsgt/index.html

但是我发现XHR文档都是没有数据的,只有EventSteam,怎么爬取页面的完整信息。

例如,我想在页面上爬取-94.67。

我的代码如下:

然后我尝试安装dryscape但失败了,它说我没有网络服务器文件。

非常感谢您的帮助。

0 投票
1 回答
582 浏览

python - PyQuery 和 PDFQuery 从 XML 或 PDF 中的下一个兄弟中提取文本

我正在尝试使用包 PDFQuery 从 PDF 中提取信息。信息每次都不在同一个位置,所以我需要一个查询标签。首先,我编写了函数:

然后我写了一个函数来提取文本:

然而,问题是(出于某种原因)几乎所有数据都在下一个“LTTextHorizo​​ntal”上。

XML 如下所示:

这里的日期是 2020 年 2 月 26 日,但它在紧随其后的框中。如何创建一个函数来提取以下框?

0 投票
1 回答
153 浏览

python - make_links_absolute() 导致绝对 URL 损坏

我需要将 HTML 页面中的相对 URL 转换为绝对 URL。我正在使用 pyquery 进行解析。

例如,这个页面http://govp.info/o-gorode/gorozhane在源代码中有相对 URL,比如

(这是页面底部的分页链接)。我正在尝试使用make_links_absolute()

但这似乎打破了相对链接:

如您所见o-gorode,最终 URL 中间有两倍,肯定会产生 404 错误。

谷歌浏览器在 URL 转换方面做得很好

pyquery 内部使用urljoin标准urllib.parse模块,有点像这样:

没关系,但是有很多网站都有,嗯,具有完整路径的不寻常的相对链接。

在这种情况下urljoin会给我们一个无效的绝对链接:

我相信这样的相对链接不是很有效,但谷歌浏览器处理它们没有问题;所以我想这在网络上是很正常的。

有什么建议可以解决这个问题吗?我试过furl了,但它的加入也是一样的。

0 投票
2 回答
128 浏览

python - 未定义的符号:导入 pyquery 时的 xsltGetProfileInformation

我正在尝试在 Python 3.8.3 上使用 pyquery,但由于以下原因而失败:

操作系统是 CoreELEC,所以没有“apt-get”,只有 OpenWRT 中的“opkg install”。

尝试重新安装 lxml 和 pyquery,但没有成功。问题在哪里?

0 投票
1 回答
185 浏览

python - 使用 pyquery 库或 beautifulsoup 解析 HTML 元素。或不同的选择

我想解析 div1 并得到它的文本(如果它有一个并且我想保留{name_class: tag1 (or None), text: None}),我重申:{name_class: tag2 , text: yes}, {name_class: tag3 , text: no}

我解决此问题的代码:

type(tryy) = lxml.etree._Element' 但问题是:lxml.etree._Element.text不要在 div2 中保留“是”

我试过了,但它不适用于 bs4 只从这个元素中提取文本,而不是它的子元素

欢迎任何图书馆的所有解决方案