问题标签 [beautifulsoup]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
11 回答
60606 浏览

python - 使用 BeautifulSoup 删除标签但保留其内容

目前我有这样的代码:

除了我不想丢弃无效标签内的内容。如何在调用 soup.renderContents() 时摆脱标签但将内容保留在里面?

0 投票
4 回答
1489 浏览

python - Python和BeautifulSoup,没有找到'a'

这是一段HTML代码(来自delicious):

我正在尝试查找 class="inlinesave action" 的所有链接。这是代码:

但它什么也没找到!

有什么想法吗?

谢谢

0 投票
3 回答
178 浏览

html - 如何在 html 页面中设计小型 Web 表单

当我设计我们的网络表单时,我看到我的网络表单比我的网页非常小因为我的表单只有两个字段(两个文本框两个标签)我是如何设计它的。然后他看起来很漂亮。

0 投票
4 回答
9133 浏览

python - 如何将此 XPath 表达式转换为 BeautifulSoup?

在回答上一个问题时,有几个人建议我将BeautifulSoup用于我的项目。我一直在努力处理他们的文档,但我无法解析它。有人可以指出我应该能够将此表达式转换为 BeautifulSoup 表达式的部分吗?

上面的表达式来自Scrapy。我正在尝试应用正则表达式re('\.a\w+')td class altRow从那里获取链接。

我也将不胜感激任何其他教程或文档的指针。我找不到任何东西。

谢谢你的帮助。

编辑: 我正在查看此页面

但是,如果您查看页面源代码"/cabel"

出于某种原因,BeautifulSoup 看不到搜索结果,但 XPath 可以看到它们,因为hxs.select('//td[@class="altRow"][2]/a/@href').re('/.a\w+')捕获了“/cabel”

编辑: cobbal:它仍然无法正常工作。但是当我搜索这个时:

它返回所有带有第二个字符“a”的链接,但不返回律师姓名。因此,出于某种原因,BeautifulSoup 看不到这些链接(例如“/cabel”)。我不明白为什么。

0 投票
3 回答
4445 浏览

python - Beautifulsoup 在表中获得价值

我正在尝试抓取 http://www.co.jefferson.co.us/ats/displaygeneral.do?sch=000104 并获取“所有者姓名”我所拥有的作品,但真的很丑而不是最好的我很确定,所以我正在寻找更好的方法。这是我所拥有的:

相关的 HTML 是

哇,有很多关于beautifulsoup 的问题,我浏览了它们,但没有找到对我有帮助的答案,希望这不是重复的问题

0 投票
2 回答
1819 浏览

python - 这些错误是什么,我该如何处理?

我正在使用这个简单的代码

打开大约 200 个 url 并使用正则表达式(和 BeautifulSoup)搜索它们,但经过十几个左右我得到这些错误并且 IDLE 退出。他们的意思是什么?我该如何处理它们?

谢谢你。

0 投票
4 回答
5699 浏览

python - 我可以将 beautifulsoup 中的两个“findAll”搜索块合并为一个吗?

我可以将这两个块合并为一个:

编辑:除了像 Yacoby 在答案中所做的那样组合循环之外的任何其他方法。

我也可以将多个块合二为一:

或者可能有一些 lambda 表达式,我可以在其中检查是否在数组中,或者任何其他更简单的方法。

另外我如何找到带有属性类的标签,因为类是保留关键字:

编辑:这部分由 soup.findAll(attrs={'class': 'noprint'}) 解决:

0 投票
1 回答
2357 浏览

python - 用beautifulsoup 分割一个逗号分隔的列表和链接

我在 HTML 文档的表格单元格中有一个逗号分隔的列表,但列表中的一些项目是链接的:

我一直在使用漂亮的汤来解析 html,我可以到达表,但是拆分它并返回大致如下的数据结构的最佳方法是:

0 投票
2 回答
2167 浏览

python - 如何使用python和beautifulsoup解析脚本标签

我正在尝试提取document.write页面上函数内部的框架标签的属性,如下所示:

findAll('frame')方法没有帮助。有没有办法读取框架标签的内容?

我正在使用 python 2.5 和 BeautifulSoup 3.0.8。

只要我能够得到结果,我也愿意将 python 3.1 与 BeautifulSoup 3.1 一起使用。

谢谢

0 投票
2 回答
6231 浏览

python - 是否可以在 Google App Engine 上使用 Python lxml?

我可以在 Google App Engine 上使用 Python lxml 吗?(或者我必须用美丽的汤吗?)

我已经开始使用 Beautiful Soup,但它似乎很慢。我刚刚开始尝试从其他网站“抓取”数据以创建某种“混搭”的想法。