问题标签 [bs4]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 如何在使用 BeautifulSoup 忽略格式化标签的同时从 html 中获取文本?
以下代码用于从 html 中获取连续的文本段。
文本项目由结构标签(如<div>
or )和<br>
格式化标签(如<em>
和)分解<strong>
。这给我进一步解析文本带来了一些不便,我希望能够在忽略文本内部的任何格式标记的同时获取连续的文本项。
例如,soup.find_all_next(text=True)
将获取 html 代码<div>This is <em>important</em> text</div>
并返回单个字符串,This is important text
而不是三个字符串This is
、important
和text
.
我不确定这是否清楚......如果不是,请告诉我。
编辑:我逐个文本项浏览 html 文本项的原因是,我只是在看到特定的“开始”评论标签后才开始步行,而当我到达特定的“结束”评论标签时我会停下来. 在需要逐项遍历的情况下,是否有任何解决方案有效?我正在使用的完整代码如下。
如果传递给它们的字符串与我的开始或结束注释标签匹配,则这两个函数返回isBeginText(text)
true 。isEndText(text)
python - 直接按标签分类美汤
我正在尝试使用漂亮的汤快速确定spans
某个班级,我似乎无法按班级搜索,但我可以按 ID 搜索:
这当然看起来不太合乎逻辑,但我在文档中看不到替代方案。我知道汤有一个attrs
字典,我想要一些快速的东西。谢谢
python-2.7 - How to install BeautifulSoup4 to python3 on Mac
I have original Python 2.7.5 in /usr/bin/python, and I installed Python3 by downloading Python 3.5.1 package in /usr/local/bin/python3, then I installed BeautifulSoup4 as below:
This way that I can't use bs4 in python3, how can I install bs4 on python3?
javascript - 使用 Beautiful Soup 从 Google 搜索中提取数据/链接
晚上的人们,
我试图向谷歌提问,并从其受人尊敬的搜索查询中提取所有相关链接(即我搜索“站点:Wikipedia.com Thomas Jefferson”,它给了我 wiki.com/jeff、wiki.com/tom、 ETC。)
这是我的代码:
这里的目标是让我设置查询变量,让 python 查询 Google,如果你愿意,Beautiful Soup 会拉出所有“绿色”链接。
我只希望完全拉出绿色链接。奇怪的是,谷歌的源代码是“隐藏的”(他们的搜索架构的一个症状),所以 Beautiful Soup 不能只是从 h3 标签中提取一个 href。当我检查元素时,我可以看到 h3 href,但在查看源代码时看不到。
我的问题是:如果我无法访问他们的源代码,只能检查元素,我该如何通过 BeautifulSoup 从 Google 中提取前 5 个最相关的绿色链接?
PS:为了了解我想要完成的工作,我发现了两个相对接近的 Stack Overflow 问题,比如我的:
python - 如何从链接中获取图像?
当我尝试通过此代码访问图像标签时,我得到以下输出。
输出
但是当我通过 Inspect Element 看到它时。我不知道如何保存这些图像。
更新
以上对我有用。
html - 如何通过 Beautiful Soup 解析下一页?
我使用如下代码来解析带有下一页的页面:
但是我收到如下错误,如果有链接,我该如何解析下一个链接。
python - 使用 BeautifulSoup 获取网页时如何保持数字格式?
我正在尝试获取一个网页,其中包含带有上标的数字、分子和分母格式的分数。获取的内容正在保存到文档文件中。为此,我正在使用 python-docx 模块。例如。表达式 112 x 5 4保存为 112 x 54 & fraction ¼ as 1 (newline)(tab) 4. 我使用的是 Python 3.5 & Windows 8.1 OS
代码-
python - IndexError:使用 bs4 时列表索引超出范围
这是我试图获取数据的链接 Flipkart
和代码的一部分:
在这里我必须取 1 颗星title= 1 star
和 2颗星<span itemprop="ratingCount">2</span>
我尝试以下代码
但它给了
IndexError:列表索引超出范围
python - 美丽的汤选择兄弟姐妹不起作用
我正在尝试获得漂亮的汤来返回网站上某一层代码中的所有文本。但是当我尝试任何.contents
, 时.children
,.find_next_sibling
它总是返回我用来过滤的标签下的所有内容。
我正在尝试从以下位置获取下拉菜单中的选项:http ://www.arrondissement.com/abitibi_temiscamingue/s1-alimentation/
我的代码:
我试图提取的数据来自 javascript 下拉菜单,也许这就是问题所在?最终目标是使用 wtforms 在我的应用程序中重新创建下拉菜单,因此我需要将父选项与子选项分开。谢谢你的帮助!
python - 使用 BS4 从网页中提取多个没有“a”或“href”标签的 URL
我正在使用 Selenium 制作一个简单的程序,该程序会转到 Flickr.com,搜索用户输入的术语,然后打印出所有这些图像的 URL。
我在最后一部分苦苦挣扎,只获取图像的 URL。我一直在使用class_=
搜索来获取 URL 所在的 HTML 部分。搜索“苹果”时,这会多次返回以下内容:
我想要的只是每个图像的 URL 如下所示:
由于没有a
或href
trags 我正在努力将它们过滤掉。
我最后也尝试了一些正则表达式,例如:
但这没有用。
无论如何,这是我的完整代码,谢谢。
我更改的代码: