问题标签 [beautifulsoup]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 我可以更改 BeautifulSoup 将 XML 标记转换为小写的行为吗?
我正在编写代码来解析用 XML 编写的配置文件,其中 XML 标记是大小写混合的,并且大小写很重要。Beautiful Soup 似乎默认将 XML 标记转换为小写,我想更改此行为。
我不是第一个就这个主题提出问题的人[见这里]。但是,我不明白该问题的答案,并且在 BeautifulSoup-3.1.0.1 BeautifulSoup.py 似乎不包含任何“ encodedName
”或“ Tag.__str__
”实例
python - 将多个 html 文件抓取到 CSV
我正在尝试从硬盘驱动器上的 1200 多个 .htm 文件中删除行。在我的电脑上,它们位于“file:///home/phi/Data/NHL/pl07-08/PL020001.HTM”。这些 .htm 文件从 *20001.htm 到 *21230.htm 是连续的。我的计划是最终通过电子表格应用程序将我的数据扔到 MySQL 或 SQLite 中,或者如果我能从这个过程中得到一个干净的 .csv 文件,就直接输入。
这是我第一次尝试编写代码(Python)、抓取,我刚刚在我蹩脚的 pentium IV 上安装了 Ubuntu 9.04。不用说我是新手并且有一些障碍。
如何让 mechanize 按顺序浏览目录中的所有文件。机械化甚至可以做到这一点吗?mechanize/Python/BeautifulSoup 可以读取 'file:///' 样式的 url,还是有其他方法可以将其指向 /home/phi/Data/NHL/pl07-08/PL020001.HTM?以 100 或 250 个文件增量执行此操作还是仅发送所有 1230 个文件是否明智?
我只需要以“”开头并以“ <tr class="evenColor">
”结尾的行</tr>
。理想情况下,我只想要其中包含“SHOT”|“MISS”|“GOAL”的行,但我想要整行(每一列)。请注意,“目标”是粗体的,所以我必须指定这个吗?每个 htm 文件有 3 个表。
此外,我希望将父文件的名称(pl020001.htm)包含在我抓取的行中,这样我就可以在最终数据库中自己的列中标识它们。我什至不知道从哪里开始。这是我到目前为止所拥有的:
我应该使用 IDLE 还是类似的东西?只是 Ubuntu 9.04 中的终端?
php - php 有什么像 hpricot 或美丽的汤之类的吗?
可能的重复:
用于 PHP 的强大、成熟的 HTML 解析器
我正在寻找一种在 php 中解析和修改 html 文档服务器端的好方法。美丽的汤和 hpricot 看起来是非常好的工具,但它们不适用于 php。有没有什么好的库可以在 php 中做到这一点?整洁似乎部分是我正在寻找的,但看起来你不能在整洁中使用选择器等。
python - 为什么我在 Python 中使用 BeautifulSoup 得到“'ResultSet' 没有属性 'findAll'”?
所以我正在慢慢学习Python,并试图制作一个简单的函数,从在线游戏的高分页面中提取数据。这是我将其他人的代码重写为一个函数(这可能是问题),但我收到了这个错误。这是代码:
提前致谢。
python - 如何在美丽的汤中获得嵌套元素
我正在为在 td 中获取一些 href 所需的语法而苦苦挣扎。table、tr 和 td 元素没有任何类或 id。
如果我想在这个例子中抓住锚点,我需要什么?
<tr><td><a>...
谢谢
python - 使用 python 和 BeautifulSoup 从网页中检索链接
如何检索网页的链接并使用 Python 复制链接的 url 地址?
python - 将 HTML 行解析为 CSV
首先,html 行如下所示:
我会展示真正的 html,但我很抱歉说不知道如何阻止它。感到羞耻
使用 BeautifulSoup (Python) 或任何其他推荐的屏幕抓取/解析方法,我想将同一目录中的大约 1200 个 .htm 文件输出为 CSV 格式。这最终将进入 SQL 数据库。每个目录代表一年,我计划至少做 5 年。
glob
根据一些建议,我一直在玩弄这是最好的方法。这就是我到目前为止所拥有的并且被卡住了。
我意识到这很丑陋,但这是我第一次尝试这样的事情。在意识到我不必手动复制数千个文件并将其粘贴到 Excel 中之后,我花了几个月的时间才解决这个问题。我也意识到我可以因为沮丧而反复踢我的电脑,但它仍然有效(不推荐)。我快接近了,我需要知道接下来要做什么来制作这些 CSV 文件。请帮忙,否则我的显示器终于被锤击了。
python - 如何修复此错误或对此错误进行例外处理
我正在创建一个从任何网页获取图像网址的代码,该代码在 python 中并使用 BeutifulSoup 和 httplib2。当我运行代码时,我得到下一个错误:
有人可以向我解释如何修复或排除错误
python - 为什么 BeautifulSoup 会抛出这个 HTMLParseError?
我认为 BeautifulSoup 将能够处理格式错误的文档,但是当我将页面源发送给它时,会打印以下回溯:
它不应该能够处理这种事情吗?如果它可以处理它们,我该怎么做?如果没有,是否有可以处理格式错误的文档的模块?
编辑:这是一个更新。我使用 Firefox 将页面保存在本地,并尝试从文件内容创建一个汤对象。这就是 BeautifulSoup 失败的地方。如果我尝试直接从网站创建一个汤对象,它可以工作。这是给汤带来麻烦的文件。