问题标签 [bs4]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
1985 浏览

python - 使用 BeautifulSoup 删除换行符 (\n)

我正在使用 BS4 解析 HTML 页面:

我正在解析的页面充满了类似 3 的段落:

解析工作正常,直到最后一段:

我在数组的最后一个插槽中找到的是:

有两个换行符 ( \n) 出现在奇怪的地方(之后Waves和之前future)。它们总是出现在相同的位置,而不是随机出现。我认为它们是由于段落的长度,但有一些较长的段落没有\n出现。

我试图删除它们:

但它没有用。

换行是因为我在某处犯了错误吗?有没有办法删除它们?

0 投票
1 回答
1552 浏览

python - ImportError:没有使用 Canopy 的名为 bs4 的模块

所以我对这些东西有点陌生,但我试图了解数据抓取。我在网上使用了一些名为“Python 数据抓取初学者指南”的文档文件,这是它告诉我运行的代码:

但是当我运行它时。我有

我在网上四处走动,我尝试使用类似的东西安装 BeautifulSoup4

命令提示符:

并安装 get-pip.py 并运行:

(我在尝试了 easy_install 后使用了它,它说要求已经满足,所以我猜它已经安装了??)

请帮忙 :(

哦,嗯,​​我也在使用 python 2.7.10

0 投票
1 回答
47 浏览

python - Python // 正则表达式 // 标签

我正在尝试从中提取一些文本

我使用 BeautifulSoup (BS4) text = first_td.renderContents() trimmed_text = text.strip() print trimmed_text 来提取文本。<td但是,我只得到标签后的第一个文本。不过,我想提取标签中的所有文本,最好按列(数组)排序。在我和 BS 一起去了之后,它没有用,我认为 Regex 是要走的路。一件小事,我是一个绝对的正则表达式爱好者......

任何想法如何让文本在那里?

0 投票
1 回答
65 浏览

python - Python // BS4 // 标签

如果有以下html:

我用了

但是,然后我得到了

如何删除 TEXT_1b、TEXT_2b...TEXT_nb。另外我不想有一个数组,但 N1 = TEXT_1a, N2 = TEXT_2a...Nn = TEXT_na

0 投票
1 回答
2190 浏览

regex - BeautifulSoup findall 使用正则表达式查找 A 类或 B 类

我试图按顺序找到class="A" 和class="B"。换句话说,我想使用 OR 运算符,以便它以正确的顺序打印出结果。这是我的尝试和结果:

所有尝试都给了我一个空列表作为结果,但应该有 46 个结果。我可以单独做这两门课,但我不知道如何同时做。需要注意的是,这两个类不是同时归属于同li一个类,而是两个输出不同结果的不同类。

到目前为止,没有任何stackoverflow答案有效。我正在使用 python 3.4 和 Beautifulsoup 4

0 投票
1 回答
359 浏览

python - 如何使用 Beautiful Soup 的 find() 而不是 find_all() 以获得更好的运行时间

我正在使用 python 的 bs4 编写一个网络爬虫。我试图找到具有特定属性“data-a-dynamic-image”的第一张图像。到目前为止,我有下面的代码,它可以工作。但是,我宁愿只使用find()notfind_all。这是因为我只关心页面上具有该属性的第一项。我不想使用 find_all 并浪费时间筛选整个网页。

我制作的第二个函数只会返回我想要的结果,如果页面上的第一张图像是我想要的图像,否则它不会返回任何内容。但是,它具有我正在寻找的运行时。

我正在寻找某种方法来使顶部脚本的功能与底部脚本的时间同步。

0 投票
2 回答
1070 浏览

python - Python Beautifulsoup CSS选择器不起作用

我正在尝试在网页源的特定标签上使用 CSS 选择器。这就是我现在所拥有的:

在页面源代码中,只有一个名为“blockquote”的标签,但我收到错误消息:

我用谷歌搜索了一些人,他们只写了一些问题

代替

但我已经有了

这对于我的 python 发行版是正确的,我知道因为我有另一个程序使用这个导入并且它工作得很好。

我只是没有使用选择器吗?

0 投票
1 回答
97 浏览

python - 如何使python webcrawler无限并记录一次链接

在 thenewboston 的帮助下,我能够在 python 中创建一个不错的小型网络爬虫。看完他的视频后,我玩弄了它并添加了一些东西。我试图让它无限,因为它会记录每个链接上的每个链接,但我没有这样做。我也有多次记录同一链接的问题?我将如何解决这个问题?

这是我的代码。

0 投票
1 回答
869 浏览

python - 获取标签中文本的下一个内容

0 投票
1 回答
919 浏览

python - 如果存在,则查找同一级别的下一个兄弟

我很好奇是否只有在同一级别有一些兄弟姐妹时才有可能获得下一个兄弟姐妹。

所以关键是有时后面有文本,Last Made at : </b>但有时没有。

我这样做:

问题是,如果标签之后没有另一个兄弟</b>,它会从另一个标签返回一些<font>我不想要的数据。

我知道可以使用font.contents,但在我的情况下会是更好的选择,例如

我没有找到这个选项,所以我想问在这种情况下是否有什么可以帮助我的。