问题标签 [pyquery]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 安装pyquery mac
我首先尝试使用 pypm 安装它,并且基本上具有与使用 pip 相同的体验(为此我复制/粘贴了下面的输出)。安装提示说它已安装,对于 pip 和 pypm,pyquery 出现在安装列表中。但是当我进入python解释器时,显然没有安装pyquery:o
我究竟做错了什么?
python - 如何访问 PyQuery 查询中的第一项(或第 x 项)?
我有一个返回 2 个结果的测试的查询。特别是使用找到的大纲的第 3 级
如何选择第一个或第二个无序列表?
衰减为 HTMLElement
或者
有没有更好的方法我看不到?
笔记:
获取每个列表的第一个元素而不是第一个列表。
lxml - lxml/pyquery:以不那么严格的方式解析
我正在使用 PyQuery 处理来自 Web 的大量文档。PyQuery 使用 lxml 来解析 HTML 文档。
事实上,很多文档都不是有效的 HTML。因此,lxml 无法成功解析这些无效文档,这使我无法进一步获取信息。并且经常引发以下异常:
我在问什么:
我想要一种让lxml
以不那么严格的方式进行解析的方法,以便可以忽略这种无效性。
web-crawler - 从文章中提取作者
正如标题所说,我一直在努力爬取文章,剩下的就是作者。
下面是我的代码,使用pyquery编译段落和作者,只有作者返回空白
目标网站:http: //business.transworld.net/153984/news/surfrider-foundation-names-chad-nelsen-new-ceo/
python - Pyquery 抓取一个类名中有空格的类
我的问题是我必须抓取一个具有以下内容的网站:
同一网站中的另一个 div 如下:
刮一个没有空间的网站我可以用这个
但是对于空间我该怎么办???
python - 广告扰乱了我的文章抓取
尝试抓取文章时,我需要做什么,但各种广告不断出现?具体来说,那些会在屏幕中间弹出,要求登录/注册的,你必须在阅读之前手动关闭它。
因此,我的爬虫无法提取任何内容。关于如何使用 pyquery 在“爬行前关闭广告”中编码的任何建议?
编辑:现在与 Selenium 一起尝试消除弹出窗口。任何建议将不胜感激。
python - PyQuery Python 不适用于 for 循环
我正在尝试编写一个程序,该程序从 .txt 文件的每一行中提取 url 并执行 PyQuery 以从 LyricsWiki 中刮取歌词数据,在我实际放入 PyQuery 内容之前,一切似乎都运行良好。例如,当我愿意:
它按预期打印所有内容,一个包含所有数据的大字符串。但是,当我实现实际的 html 解析时,它只从最后一个 url 中提取歌词并跳过所有以前的。
我写入 txt 文件以避免 Powershell 出现编码问题。无论如何,在我运行程序并打开 txt 文件后,它只显示了 links.txt 文件中最后一个链接的歌词。
作为参考,'links.txt' 应该包含几个到歌词维基歌曲页面的链接,如下所示:http://lyrics.wikia.com/Taylor_Swift: Shake_It_Off http://lyrics.wikia.com/Maroon_5:Animals
'web.txt' 应该是一个空白的输出文件。
为什么 pyquery 打破了 for 循环?当它做一些更简单的事情时,它显然可以工作,比如只是连接文件的各个行。
python - 使用 Python 网络爬虫获取新闻文章的发布日期
我需要提取围绕新闻文章的不同字段,并且除了新闻文章的发布日期之外,我已经能够自动化其中的大部分字段。目前,我手动访问相应的网站,检查发布日期周围的 HTML 标记,并编写一个 jQuery 来提取日期并在 pyquery 中实现它。但是,我也想删除这个手动步骤,并为纽约时报等新闻网站编写一个通用的网络爬虫。我能想到的最接近的是编写很多可以匹配文章 DOM 中的日期时间格式的正则表达式但无法弄清楚如何区分实际发布日期和实际文章本身中可能存在的任何其他日期。
编辑:我相信我的问题的语言不是很清楚,所以我的问题是是否有办法自动从任何新闻文章中抓取发布日期,即可以从博客文章或新闻文章中提取发布日期的通用爬虫。