问题标签 [lxml]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

5100 问题

0 投票

2 回答

15264 浏览

python - 如何将命名空间添加到lxml中的属性

我正在尝试使用 python 和 lxml 创建一个看起来像这样的 xml 条目：

我正在使用python和lxml。我的adlcp:scormtype属性有问题。我是xml新手，如果我错了，请纠正我。 adlcp是一个命名空间，scormtype是一个在 adlcp 命名空间中定义的属性，对吧？
我什至不确定这是否是正确的问题，但是......我的问题是，如何使用 lxml 从非默认命名空间向元素添加属性？如果这是一个微不足道的问题，我提前道歉。

2009-09-03T16:17:51.643

0 投票

1 回答

2335 浏览

python - lxml相当于BeautifulSoup“OR”语法？

我正在将一些 html 解析代码从 BeautifulSoup 转换为 lxml。我正在尝试找出以下 BeautifullSoup 语句的 lxml 等效语法：

基本上我想在文档中找到所有具有“current zzt”或“zzt”类属性的“a”标签。BeautifulSoup 允许传入一个列表、字典，甚至是正则表达式来执行匹配。

lxml 等价物是什么？

谢谢！

python beautifulsoup lxml

2009-09-05T23:04:18.807

0 投票

4 回答

8867 浏览

python - 涉及带有属性的 HTML 标记的 Python 网页抓取

我正在尝试制作一个网络爬虫，它将解析出版物的网页并提取作者。网页的骨架结构如下：

到目前为止，我一直在尝试使用 BeautifulSoup 和 lxml 来完成这项任务，但是我不确定如何处理这两个 div 标签和 td 标签，因为它们具有属性。除此之外，我不确定是否应该更多地依赖 BeautifulSoup 或 lxml 或两者的组合。我该怎么办？

目前，我的代码如下所示：

我意识到很多导入语句可能是多余的，但我只是复制了我目前在更多源文件中的任何内容。

编辑：我想我并没有说得很清楚，但是我在页面中有多个要抓取的标签。

python beautifulsoup lxml screen-scraping

2009-09-08T02:23:25.833

0 投票

1 回答

292 浏览

python - lxml中属性和样式标签的区别

使用 BeautifulSoup 后，我正在尝试学习 lxml。但是，总的来说，我不是一个强大的程序员。

我在一些源 html 中有以下代码：

因为文本是粗体的，所以我想拉那个文本。我似乎无法区分该特定行是粗体的。

当我今晚开始这项工作时，我正在处理一个在样式属性中包含粗体字的文档，如下所示：

我应该说我正在使用的文档是我在行中阅读的一个片段，将这些行连接在一起，然后使用 html.fromstring 函数

所以我上面的第一行 htm 代码是 newHTM[19]

嗯，这似乎让我更接近

我还没有完全理解，但这里是解决方案：

python lxml

2009-09-29T03:41:44.613

0 投票

2 回答

2270 浏览

python - 无法安装 lxml（python 2.6.3、osx 10.6 雪豹）

我试着：

easy_install lxml

我得到这个错误：

文件“build/bdist.macosx-10.3-fat/egg/setuptools/command/build_ext.py”，第 85 行，在 get_ext_filename KeyError: 'etree'

任何提示？

python macos port osx-leopard lxml

2009-10-03T01:33:26.467

0 投票

1 回答

19580 浏览

python - 如何查看 lxml 元素的文本表示？

如果我使用 lxml 解析 XML 文档，是否可以查看元素的文本表示？我试着做：

但这输出

我可以使用什么来查看 XML 文件中存在的节点？有to_xml什么方法吗？

python xml lxml

2009-10-14T17:48:03.943

0 投票

2 回答

1327 浏览

java - Clojure 相当于 Python 的 lxml 库？

我正在寻找与 Python 的 lxml 库等效的 Clojure/Java。

过去我曾大量使用它来解析各种 html（作为 BeautifulSoup 的替代品），能够对 xml 使用相同的 elementtree api 真是太好了——真的是一个值得信赖的朋友！谁能推荐一个类似的 Java/Clojure 库？

关于 lxml

lxml 是一个基于 libxml2 的 xml 和 html 处理库。它可以很好地处理损坏的 html 页面，因此非常适合屏幕抓取任务。它还实现了 ElementTree api，因此 xml/html 结构被表示为一个树对象，完全支持 xpath 和 css 选择器等。

它还具有一些非常方便的实用功能，例如“清洁器”模块，该模块将从“汤”中去除不需要的标签（即脚本标签、样式标签等）。

因此，它使用简单、功能强大且速度非常快......！

java python clojure lxml

2009-10-14T21:51:49.873

0 投票

4 回答

38625 浏览

python - 如何获取lxml中元素的路径？

我正在使用 python 中的 lxml 中的 XPath 在 HTML 文档中搜索。如何获得某个元素的路径？这是来自 ruby nokogiri 的示例：

打印例如' /html/body/div/div[1]/div[1]/p/text()[1] '这是我想在python中得到的字符串。

python xpath lxml

2009-10-16T10:24:06.517

0 投票

2 回答

11662 浏览

python - python、lxml 和 xpath - html 表解析

我是 lxml 新手，对 python 很陌生，找不到以下解决方案：

我需要导入一些具有 3 列和未定义行数的表，从第 3 行开始。

当任何行的第二列为空时，该行被丢弃并且表的处理被中止。

以下代码可以很好地打印表的数据（但之后我无法重用数据）：

这只打印第一列:(

以下只导入第三行，不导入后续

任何人都知道一个奇特的解决方案，将第 3 行的所有数据放入 tbl 并将其复制到一个数组中，以便可以将其处理成一个不依赖 lxml 的模块？

提前感谢您的帮助，亚历克斯

python xpath lxml

2009-10-16T11:21:50.483

0 投票

2 回答

2077 浏览

python - 奇怪的 lxml 行为

考虑以下代码段：

我期待看到'<div><br />Hello text</div>'，因为br不能有嵌套文本并且是“自我封闭的”（我的意思是/>）。如何lxml正确处理？

python lxml

2009-10-16T12:22:42.173

1 2 3 4 5 6 7 8 9 10

问题标签 [lxml]

Reference