问题标签 [pyquery]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
351 浏览

python - 通过 PyQuery 拆分抓取的数据

我有以下情况:

我愿意屈服['one','two','three','four','five','six']

到目前为止,我有:

这只会将其分解为<p>完全忽略标签的<br />标签。我尝试了以下方法:

这些都没有奏效。此外,PyQuery API.replaceWith()其列为有效函数,但当我这样做时test = s(table).find('br').replaceWith('anytext'),它不会用任何东西替换它,我也不会收到任何错误,只是<br />在它们之间带有标签的相同项目列表。.replaceWith()对待<br><br />不同?

更复杂的例子

预期结果

[122 E. Washington St','734-665-8767','Amadeus is offering both pricing options.','Lunch 2 for $15','Choice of:','Soup','Green salad','Choice of lunch dish:','1 Golabek','3 Piergies','3 Placeki','Kielbsa',' Kapusta salad','Warsaw salad','Artichoke salad','Potato salad','Lunch $15','Three Course Meal','Choice of lunch entrée with green salad and dessert','Dinner 2 for $28','Choice of:','Cup of soup','Green salad','Choice of entrée:','2 Potato Snitzel','4 Potato Placeki','6 Piergis','2 Golabki','Bigos','Grilled Kielbsa','Vegetarian combo','Krakow Chicken (one breast)','Tilapia','Cold salad','Dinner $28','Four Course Meal','Choice of soup + green salad + Dinner Entrée + Dessert','Sunday Brunch $15']

0 投票
1 回答
531 浏览

python - Web Scraper 的 PyQuery 代码

我对python有点陌生,但我正在尝试制作一个网络爬虫脚本,它可以下载网站上的所有图片。我正在使用 requests 和 PyQuery,因为很多人在研究后推荐了它。这就是我现在所拥有的一切,我不知道该去哪里。

我知道我需要获取 img 的来源,但是在找到 img 标签后我该怎么做呢?另外,我查看了一些 html 的页面源,一些图片存储在他们的数据库中,所以 src 以“/”一些扩展名开头,所以我想知道如何才能获得完整的 url。

0 投票
1 回答
936 浏览

python - 查找 pyquery 对象的标签名称

如何找到与 pyquery 对象关联的标签?上面示例中的方法 tag() 不存在...

0 投票
1 回答
360 浏览

python - PyQuery 获取文本节点

我正在使用 PyQuery 来处理这个 HTML:

现在我有了一个e指向的变量.container,我正在循环遍历它的孩子:

但是这样我就无法获取文本节点(两个Text字符串)

如何循环元素的子元素包括文本节点?

0 投票
3 回答
317 浏览

python - 使用 lxml 解析命名空间的 HTML?

这让我完全发疯,我已经为此苦苦挣扎了好几个小时。任何帮助将非常感激。

我正在使用PyQuery 1.2.9(构建在 之上lxml)来抓取这个 URL。我只想获取该.linkoutlist部分中所有链接的列表。

这是我的完整要求:

但这会返回一个空数组。如果我改用此查询:

然后我得到这个 HTML:

所以父选择器确实返回带有大量<a>标签的 HTML。这似乎也是有效的 HTML。

xmlns更多的实验表明,由于某种原因,lxml 不喜欢开头 div 上的属性。

如何在 lxml 中忽略它,并像普通 HTML 一样解析它?

更新:尝试ns_clean,仍然失败:

0 投票
1 回答
140 浏览

python - 停止 pyquery 在源 HTML 中没有空格的地方插入空格?

我正在尝试使用 pyquery 1.2 从元素中获取一些文本。显示的文本中没有空格,但 pyquery 正在插入空格。

这是我的代码:

这会产生(注意冒号和句点前的空格):

如何停止 pyquery 在文本中插入空格?

0 投票
2 回答
522 浏览

python - 使用散景滑块解析 html 文件时获取当前值

我正在使用散景来绘制用 python/numpy 创建的数学函数。

我想使用滑块,如图所示

http://docs.bokeh.org/en/latest/docs/server_gallery/sliders_server.html

一旦我用绘图创建了 html 文件,我想在修改绘图的滑块上选择不同的值,然后将所选值读回 python 以将其用于其他操作。

将滑块上所选值从 html 文件读回 python 的最佳方法是什么?

我看到 pyquery 可能很有用,但我无法真正弄清楚。

根据上述情况,我们将不胜感激任何建议。

0 投票
1 回答
901 浏览

python - 带有 Requests 和 lxml 的 Python Scrape 网站。

以此为起点.. http://docs.python-guide.org/en/latest/scenarios/scrape/

一切都按预期工作..但是,....

给出这个错误...

使用 pyquery....

抛出此错误...

从网页获取表格的任何帮助。

0 投票
1 回答
530 浏览

python - PyQuery 查找子元素节点文本

这是代码:

如您所见,我想获取元素中的内容td div,应该是

但我刚得到 Traceback (most recent call last):。那么如何找出所有td div带有子标签的文本呢?

0 投票
2 回答
65 浏览

python - 如何提取消息?

如何使用 PyQuery 提取消息?

我试过了:

  • d('#ui-accordion-accordion-panel-0').text()
  • d('ui-accordion-content.ui-helper-reset.ui-widget-content.ui-corner-bottom.ui-accordion-content-active').text()
  • d('#accordion#ui-accordion-accordion-panel-0').text()

如果我使用d('#accordion').text()div则显示其下的每个文本,所以我不明白为什么我的第一个示例没有返回任何内容。