问题标签 [python-requests-html]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 使用 python requests-HTML 获取标签的父元素
嗨,有什么方法可以使用 requests-HTML 获取标签的所有父元素?
例如:
我想获取b
标签的所有父级:[html, body, p]
或者对于h1
标签得到这个结果:[html, body]
python - 是否可以从网页使用请求中获取 HTML 文本?
是否可以从网页使用请求中获取 HTML 文本?
这是行不通的
如果 requests.get - 也不起作用。
也许无法从此网页获取 HTML?
如果不可能,为什么?
python - 美丽的汤 vs 硒 vs urllib
我正在做一个网络自动化项目。我需要能够提取页面、评估数据并能够与页面交互(例如登录、输入值和发布到站点。)作为登录的衍生产品,我认为我需要一些允许我在给定凭据的情况下保持登录状态(例如,存储凭据或 cookie。)
我已经使用 UrlLib & Requests 库来提取文件和页面本身。
我正在尝试为该任务确定最好的 Python 库。
任何建议将不胜感激。
谢谢你!
python-3.x - ImportError:无法从“requests_html”导入名称“HTMLSession”
当我尝试使用其网站示例中的新模块requests_html时,我发现控制台在标题中显示信息。
- 我已经成功安装requests_html使用
pip install requests_html
- 我已将 python 更新为 python3.7(64 位)
控制台消息:
代码:
我希望它可以正常工作,例如https://html.python-requests.org/示例。
python-3.x - 如何制作一个分页循环来抓取特定数量的页面(页面每天都在变化)
概括
我正在从事我的供应链管理学院项目,并希望分析网站上的每日帖子,以分析和记录行业对服务/产品的需求。每天都在更改的特定页面,并且具有不同数量的容器和页面:
免费
代码通过抓取 HTML 标签和记录数据点来生成 csv 文件(不要介意标题)。尝试使用“for”循环,但代码仍然只扫描第一页。
Python 知识级别:初学者,通过 youtube 和谷歌搜索学习“艰难的方式”。找到了适合我理解水平的示例,但在结合人们的不同解决方案时遇到了麻烦。
此刻的代码
从 urllib.request 导入 bs4 将 urlopen 作为 uReq 从 bs4 导入 BeautifulSoup 作为汤
问题从这里开始
这部分不写除了现有的行项目
如果您想进一步了解,请告诉我。Rest 正在定义在 HTML 代码中找到并打印到 csv 的数据容器。任何帮助/建议将不胜感激。谢谢!
实际结果 :
代码仅为第一页生成 CSV 文件。
代码至少不会写在已扫描的内容之上(每天)
预期成绩 :
代码扫描下一页并识别何时没有要浏览的页面。
CSV 文件每页会生成 10 个 csv 行。(无论最后一页上的数量是多少,因为数字并不总是 10)。
代码将写在已经抓取的内容之上(使用带有历史数据的 Excel 工具进行更高级的分析)
python - xpath 中的“text()”返回错误,参数无效
使用contains('text', 'some text')
有效,但我想检查它是否只包含我要插入的内容。我发现contains(text()="some text")
,但它作为无效参数返回。你能告诉我有什么问题吗?
提前致谢。
python-3.x - 将 Requests-HTML 与 RoboBrowser 或 Mechanize 相结合
我喜欢使用 Robobrowser 或在 python 中机械化库在网站中填写表格。但是,我正在尝试的网站需要 javascript 渲染。
我能够使用 requests-html 呈现网页 javascript。现在如何将会话从 requests-html 传递到 robobrowser 或 mechanize ?
我可以使用 Selenium 解决它,但我更喜欢 Robobrowser 或 mechanize 。
确切地说,我想要与此处链接中提到的会话转移相反:
python-3.x - 分页没有每个页面的不同网址
我正在抓取网页(使用 Python 请求和 requests-html 模块),我需要浏览项目列表的所有页面。
在“人类用户”世界中,我单击“2”进入第二页,或单击“->”从实际页面转到下一页。
当我检查我刚才说的元素时,它们是一个<div>
标签,例如:
<div class="pagination__Page..."> 2 </div>
或者
<div class="pagination__Page..."> -> </div>
两者都有一个event
链接,因此当我单击它时,会转到下一页。
我尝试执行 requests-HTML 文档建议的 for 循环分页,但在这种情况下它不起作用,因为没有与r.html
对象关联的链接,也没有与列表的每个页面关联的链接。
当我在网站上单击那些“div”时,网址根本不会改变。
检查event
(针对这种2
情况)它调用了一个 JS 函数,例如:
检查它调用JS的event
函数(针对这种->
情况),例如:
我想获得与单击时相同的结果,但我不知道如何。