问题标签 [python-requests-html]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

398 问题

0 投票

2 回答

1348 浏览

python - 使用 python requests-HTML 获取标签的父元素

嗨，有什么方法可以使用 requests-HTML 获取标签的所有父元素？

例如：

我想获取b标签的所有父级：[html, body, p]

或者对于h1标签得到这个结果：[html, body]

2019-03-12T15:05:36.583

0 投票

0 回答

130 浏览

python - 是否可以从网页使用请求中获取 HTML 文本？

是否可以从网页使用请求中获取 HTML 文本？

这是行不通的

如果 requests.get - 也不起作用。
也许无法从此网页获取 HTML？
如果不可能，为什么？

python python-requests python-requests-html

user8110726

2019-03-18T07:55:32.810

0 投票

1 回答

1431 浏览

python - 美丽的汤 vs 硒 vs urllib

我正在做一个网络自动化项目。我需要能够提取页面、评估数据并能够与页面交互（例如登录、输入值和发布到站点。）作为登录的衍生产品，我认为我需要一些允许我在给定凭据的情况下保持登录状态（例如，存储凭据或 cookie。）

我已经使用 UrlLib & Requests 库来提取文件和页面本身。

我正在尝试为该任务确定最好的 Python 库。

任何建议将不胜感激。

谢谢你！

python beautifulsoup urllib3 python-requests-html

2019-03-21T16:24:44.533

0 投票

1 回答

5880 浏览

python-3.x - ImportError：无法从“requests_html”导入名称“HTMLSession”

当我尝试使用其网站示例中的新模块requests_html时，我发现控制台在标题中显示信息。

我已经成功安装requests_html使用pip install requests_html
我已将 python 更新为 python3.7（64 位）

控制台消息：

代码：

我希望它可以正常工作，例如https://html.python-requests.org/示例。

python-3.x python-requests-html

2019-03-25T13:43:06.500

0 投票

1 回答

1118 浏览

python-3.x - 如何制作一个分页循环来抓取特定数量的页面（页面每天都在变化）

概括

我正在从事我的供应链管理学院项目，并希望分析网站上的每日帖子，以分析和记录行业对服务/产品的需求。每天都在更改的特定页面，并且具有不同数量的容器和页面：

https://buyandsell.gc.ca/procurement-data/search/site?f%5B0%5D=sm_facet_procurement_data%3Adata_data_tender_notice&f%5B1%5D=dds_facet_date_published%3Adds_facet_date_published_today

免费

代码通过抓取 HTML 标签和记录数据点来生成 csv 文件（不要介意标题）。尝试使用“for”循环，但代码仍然只扫描第一页。

Python 知识级别：初学者，通过 youtube 和谷歌搜索学习“艰难的方式”。找到了适合我理解水平的示例，但在结合人们的不同解决方案时遇到了麻烦。

此刻的代码

从 urllib.request 导入 bs4 将 urlopen 作为 uReq 从 bs4 导入 BeautifulSoup 作为汤

问题从这里开始

这部分不写除了现有的行项目

如果您想进一步了解，请告诉我。Rest 正在定义在 HTML 代码中找到并打印到 csv 的数据容器。任何帮助/建议将不胜感激。谢谢！

实际结果：

代码仅为第一页生成 CSV 文件。

代码至少不会写在已扫描的内容之上（每天）

预期成绩：

代码扫描下一页并识别何时没有要浏览的页面。

CSV 文件每页会生成 10 个 csv 行。（无论最后一页上的数量是多少，因为数字并不总是 10）。

代码将写在已经抓取的内容之上（使用带有历史数据的 Excel 工具进行更高级的分析）

python-3.x web-scraping beautifulsoup pagination python-requests-html

2019-03-28T15:07:06.307

0 投票

3 回答

106 浏览

python - 如何将str转换为int？int() 和 float() 不起作用

我从 requests-html 模块中获得了一些数据，并想用它进行计算，但无法正常工作。它是一个“str”类型，我尝试使用 int() 将其转换为 int，float() 也不起作用。提前致谢。

python python-requests-html

2019-04-05T16:13:48.740

0 投票

1 回答

294 浏览

python - xpath 中的“text()”返回错误，参数无效

使用contains('text', 'some text')有效，但我想检查它是否只包含我要插入的内容。我发现contains(text()="some text")，但它作为无效参数返回。你能告诉我有什么问题吗？

提前致谢。

python web-scraping python-requests-html

2019-04-08T05:26:43.000

0 投票

1 回答

519 浏览

python - 使用requests_html抓取时如何获取最后一个元素

我试着用. requests_html有几个 div 标签包含我要废弃的类名。我知道您可以按first=True原样选择第一个元素：

但是，如果我只想选择类的最后一个元素，我该怎么办company__item？

python web-scraping python-requests-html

2019-04-08T08:09:37.030

0 投票

0 回答

202 浏览

python-3.x - 将 Requests-HTML 与 RoboBrowser 或 Mechanize 相结合

我喜欢使用 Robobrowser 或在 python 中机械化库在网站中填写表格。但是，我正在尝试的网站需要 javascript 渲染。

我能够使用 requests-html 呈现网页 javascript。现在如何将会话从 requests-html 传递到 robobrowser 或 mechanize ？

我可以使用 Selenium 解决它，但我更喜欢 Robobrowser 或 mechanize 。

确切地说，我想要与此处链接中提到的会话转移相反：

"将 RoboBrowser 与 Requests-HTML 相结合"

python-3.x mechanize robobrowser python-requests-html

2019-04-19T14:59:07.407

0 投票

1 回答

715 浏览

python-3.x - 分页没有每个页面的不同网址

我正在抓取网页（使用 Python 请求和 requests-html 模块），我需要浏览项目列表的所有页面。

在“人类用户”世界中，我单击“2”进入第二页，或单击“->”从实际页面转到下一页。

当我检查我刚才说的元素时，它们是一个<div>标签，例如：

<div class="pagination__Page..."> 2 </div>或者

<div class="pagination__Page..."> -> </div>

两者都有一个event链接，因此当我单击它时，会转到下一页。

我尝试执行 requests-HTML 文档建议的 for 循环分页，但在这种情况下它不起作用，因为没有与r.html对象关联的链接，也没有与列表的每个页面关联的链接。

当我在网站上单击那些“div”时，网址根本不会改变。

检查event（针对这种2情况）它调用了一个 JS 函数，例如：

检查它调用JS的event函数（针对这种->情况），例如：

我想获得与单击时相同的结果，但我不知道如何。

python-3.x web-scraping python-requests python-requests-html

2019-05-01T12:46:46.210

1 2 3 4 5 6 7 8 9 10

问题标签 [python-requests-html]

概括

免费

此刻的代码

问题从这里开始

这部分不写除了现有的行项目

如果您想进一步了解，请告诉我。Rest 正在定义在 HTML 代码中找到并打印到 csv 的数据容器。任何帮助/建议将不胜感激。谢谢！

Reference