问题标签 [lxml]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1407 浏览

python - lxml 更改 Unicode 字符

我正在使用 lxml 读取 xml 文件并更改一些细节。但是,在运行它时,我发现即使我只是使用 lxml 读取文件然后再次将其写出,如下所示:

我发现 Queensrÿche 转换为Queensrÿche. 有人知道怎么修这个东西吗?

0 投票
2 回答
6231 浏览

python - 是否可以在 Google App Engine 上使用 Python lxml?

我可以在 Google App Engine 上使用 Python lxml 吗?(或者我必须用美丽的汤吗?)

我已经开始使用 Beautiful Soup,但它似乎很慢。我刚刚开始尝试从其他网站“抓取”数据以创建某种“混搭”的想法。

0 投票
2 回答
956 浏览

python - lxml[.objectify] 文档元素标签名

我正在接收 XML 格式的数据包,每个数据包都有一个特定的 documentRoot 标签,我想根据根标签名称委托专门的方法来处理这些数据包。这适用于 xml.dom.minidom,如下所示:

但是,我想通过使用更 Pythonic 的 lxml.objectify 来简化事情(在代码的其他部分,而不是这里)。

问题是我不知道如何用 lxml 获取“root.tagName”,最好严格来说是 lxml.objectify。有任何想法吗?

0 投票
1 回答
786 浏览

python - 将 lxml XSLT pretty_print 与 strip-space 结合起来

我正在清理一些粗略的 XML,因此我在 XSL 转换的 lxml 输出中对 etree.tostring() 的调用中设置了 pretty_print = True 。但是,这给我留下了原始输入中的一些垃圾空白节点,所以我添加了

...但这完全折叠了所有空白,忽略了漂亮的打印。有没有一种简单的方法可以让条形空间只应用于输入,并且仍然让 lxml 应用漂亮的打印?

0 投票
7 回答
38065 浏览

python - 在 python 中解析 HTML - lxml 或 BeautifulSoup?其中哪一个更适合什么样的目的?

据我所知,Python 中的两个主要 HTML 解析库是 lxml 和 BeautifulSoup。我为我正在进行的项目选择了 BeautifulSoup,但我选择它并没有什么特别的原因,只是觉得语法更容易学习和理解。但我看到很多人似乎更喜欢 lxml,而且我听说 lxml 更快。

所以我想知道一个比另一个有什么优势?我什么时候想使用 lxml,什么时候使用 BeautifulSoup 更好?还有其他值得考虑的库吗?

0 投票
2 回答
2387 浏览

python - 在 ElementTree 文本中插入标签

我正在使用 Python ElementTree模块来操作 HTML。我想强调某些词,我目前的解决方案是:

上面检查了每个元素的文本并强调了它找到的重要单词。然而,它通过在文本属性中嵌入 HTML 标记来实现这一点,在渲染时会对其进行转义,因此我需要应对:

这让我不舒服,所以我想正确地做到这一点。但是,要嵌入一个新元素,我需要围绕“文本”和“尾部”属性移动,以便强调的文本出现在同一位置。当像上面那样迭代时,这真的很棘手。

任何如何正确执行此操作的建议将不胜感激。我确信我在 API 中遗漏了一些东西!

0 投票
2 回答
909 浏览

python - 相当于lxml中Beautiful Soup的renderContents()方法?

tag.renderContents()lxml中是否有相当于Beautiful Soup的方法?

我尝试过使用element.text,但它不会呈现子标签,以及''.join(etree.tostring(child) for child in element),但不会呈现子文本。我能找到的最接近的是etree.tostring(element),但这会呈现 的开始和结束标签element,这是我不想要的。

是否有我忽略的另一种方法(或实现此目的的替代方法)?

0 投票
2 回答
6978 浏览

python - 访问位于根元素之前的 XML 注释

请帮我解决我的 lxml 问题。如何从此文件中获取“评论 1”?

0 投票
2 回答
22267 浏览

python - 如何使用 lxml、XPath 和 Python 从网页中提取链接?

我有这个 xpath 查询:

它提取所有带有 title 属性的链接 - 并hrefFireFox 的 Xpath 检查器插件中提供

但是,我似乎无法将它与lxml.

lxml这不会从(空列表)产生任何结果。

如何在 Python 下获取href包含属性标题的超链接的文本(链接) ?lxml

0 投票
3 回答
2239 浏览

python - lxml 和循环在 python 中创建 xml rss

我一直在使用 lxml 来创建 rss 提要的 xml。但是我在使用标签时遇到了问题,并且无法真正弄清楚如何添加动态数量的元素。鉴于 lxml 似乎只是将函数作为函数的参数,我似乎无法弄清楚如何在不重新制作整个页面的情况下循环获取动态数量的项目。