问题标签 [pyquery]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 requests_html 时无法按预期提取结果
我无法使用 requests_html 提取正确的结果:
我可以id
在源内容中找到“productDetails_detailBullets_sections1”:
实际上,这个问题同样存在于 PyQuery 中。
为什么requests_html
找不到这个元素?
python - 通过pyquery获取具有特定属性的元素
我在 HTML 页面中有这样的内容:
如何获取所有具有data-name-en
属性的元素?
web-crawler - PyQuery html 如何选择(第二个标签,nth-child)
1.问题
我试图获得第二个价值c -5678-
html('v')[1].attr('c')
这将显示错误“HtmlElement”对象没有属性“attr”
那么我该怎么做呢?
2.问题
我试图找到如何解决第一个问题,但我遇到了另一个问题。
html('p:nth-child(1)').attr('id')
我得到'A'
html('p:nth-child(2)').attr('id')
我得到'D'
html('p:nth-child(3)').attr('id')
我什么都得不到
“B”和“C”在哪里?
我认为
html('p:nth-child(2)').attr('id')
会得到'B'
html('p:nth-child(3)').attr('id')
会得到'C'
html('p:nth-child(4)').attr('id')
会得到'D'
但这是错误的
css-selectors - 如何获取组最后一列元素
如何使用css选择器在python的每一行中找到相同元素中的最后一个元素?我正在使用包 pyquery。
我试过了tr td:nth-child(2) .score.fill:last-child
,tr td:nth-child(2) .score.fill:nth-last-child(1)
。都失败了。
我想得到这样的结果:
python - PyQuery 不会返回页面上的元素
我已经设置了一个 Python 脚本来打开这个网页PyQuery
。
但pqPage("li")
只返回一个空白列表,[]
. 同时,pqPage.text()
显示页面的 HTML 文本,其中包含li
元素。
为什么代码不会返回li
元素列表?我如何让它做到这一点?
python - 使用 Python 进行异步请求爬取
我要爬取链接: http ://data.eastmoney.com/hsgt/index.html
但是我发现XHR文档都是没有数据的,只有EventSteam,怎么爬取页面的完整信息。
例如,我想在页面上爬取-94.67。
我的代码如下:
然后我尝试安装dryscape但失败了,它说我没有网络服务器文件。
非常感谢您的帮助。
python - PyQuery 和 PDFQuery 从 XML 或 PDF 中的下一个兄弟中提取文本
我正在尝试使用包 PDFQuery 从 PDF 中提取信息。信息每次都不在同一个位置,所以我需要一个查询标签。首先,我编写了函数:
然后我写了一个函数来提取文本:
然而,问题是(出于某种原因)几乎所有数据都在下一个“LTTextHorizontal”上。
XML 如下所示:
这里的日期是 2020 年 2 月 26 日,但它在紧随其后的框中。如何创建一个函数来提取以下框?
python - make_links_absolute() 导致绝对 URL 损坏
我需要将 HTML 页面中的相对 URL 转换为绝对 URL。我正在使用 pyquery 进行解析。
例如,这个页面http://govp.info/o-gorode/gorozhane在源代码中有相对 URL,比如
(这是页面底部的分页链接)。我正在尝试使用make_links_absolute()
:
但这似乎打破了相对链接:
如您所见o-gorode
,最终 URL 中间有两倍,肯定会产生 404 错误。
pyquery 内部使用urljoin
标准urllib.parse
模块,有点像这样:
没关系,但是有很多网站都有,嗯,具有完整路径的不寻常的相对链接。
在这种情况下urljoin
会给我们一个无效的绝对链接:
我相信这样的相对链接不是很有效,但谷歌浏览器处理它们没有问题;所以我想这在网络上是很正常的。
有什么建议可以解决这个问题吗?我试过furl
了,但它的加入也是一样的。
python - 未定义的符号:导入 pyquery 时的 xsltGetProfileInformation
我正在尝试在 Python 3.8.3 上使用 pyquery,但由于以下原因而失败:
操作系统是 CoreELEC,所以没有“apt-get”,只有 OpenWRT 中的“opkg install”。
尝试重新安装 lxml 和 pyquery,但没有成功。问题在哪里?
python - 使用 pyquery 库或 beautifulsoup 解析 HTML 元素。或不同的选择
我想解析 div1 并得到它的文本(如果它有一个并且我想保留{name_class: tag1 (or None), text: None}
),我重申:{name_class: tag2 , text: yes}, {name_class: tag3 , text: no}
我解决此问题的代码:
type(tryy) = lxml.etree._Element'
但问题是:lxml.etree._Element.text
不要在 div2 中保留“是”
我试过了,但它不适用于 bs4 只从这个元素中提取文本,而不是它的子元素
欢迎任何图书馆的所有解决方案