“lxml”的相关标签问题_Stack Overflow中文网

0 投票

1 回答

1039 浏览

python - 如何使用 lxml 提取一些文本？

我想在某些网站中提取一些文本。这是我想提取一些文本来制作刮板的网址。 http://news.search.naver.com/search.naver?sm=tab_hty&where=news&query=times&x=0&y=0 在这个页面中，我想分别提取一些带有主题和内容字段的文本。例如，如果您打开该页面，您可以在页面中看到一些文本，

日本东京国际电影节 EPA연합뉴스 세계 | 2009.10.25 (일) 오후 7:21 日本，2009 年 10 月 25 日。 Gayet 凭借在法国电影制片人 Xabi Molia 执导的电影《八倍向上》中的角色获得最佳女演员奖。EPA/大黑川

日本东京国际电影节 EPA연합뉴스 세계 | 2009.10.25 (일) 오후 7:18 在第22届东京电影节颁奖典礼上获悉，她凭借在法国电影导演夏比莫利亚执导的电影《八倍向上》中的角色获得了最佳女演员奖...

等等，，，，

最后我想提取诸如格式之类的文本

主题：日本东京国际电影节内容：EPA연합뉴스 세계 | 2009.10.25 (일) 오후 7:21 日本，2009 年 10 月 25 日。 Gayet 凭借在法国电影制片人 Xabi Molia 执导的电影《八倍向上》中的角色获得最佳女演员奖。EPA/大黑川

主题：...内容：...

等等..如果有人帮助，真的很感激。提前致谢。

2009-10-25T17:01:57.037

0 投票

1 回答

184 浏览

django - 如何使用 lxml 从网站获取消息？

在exam.com 上与天气无关：

我想使用Django 1.1和lxml在网站上获取信息。我只想获取“25”的信息。

HTMLexam.com 结构如下：

我是学生。我正在和我的朋友们做一个小项目。请解释给我容易理解。非常感谢你！

django lxml

2009-10-30T07:47:16.667

0 投票

2 回答

872 浏览

xml - 如何从 XPath 中的标记中选择未知层数的节点？

例如，如果我有

如何组合一个返回输入 1,2 和 3 的查询？

编辑：我应该注意我对抓取页面上的所有输入元素不感兴趣，我只想要作为特定表单的子元素的所有输入元素，所以“//”就出来了。

xml xpath lxml

2009-11-06T19:17:23.987

0 投票

1 回答

320 浏览

python - Python 2.6.x 的 XML/XSL 库的选择

目前我有 2 个变种，LXML和libXML2，它们似乎都可以工作。我已经尝试对两者进行基准测试，特别是用于将内存字符串和文件解析为 XML 并导入 XSLT 样式表并应用它们。虽然纯基于性能的测试表明 LXML 是最重要的（特别是应用样式表），但 libxml2 似乎已被用作许多其他语言的事实上的标准。此外，在解析 LXML 的过程中，实体替换似乎有些困难。

我的问题主要是：有没有人在生产中成功使用过 LXML，你的印象是什么？

python xslt lxml libxml2 benchmarking

2009-11-11T17:08:39.423

0 投票

1 回答

1535 浏览

我正在使用 lxml 解析 HTML 文件，我想知道如何设置contextxpath 搜索。我的意思是我有一个节点元素，并且只想在这个节点内进行 xpath 搜索，就好像它是根节点一样。例如，我有一个表单节点，xpath 搜索//input只返回给定表单的输入，而不是页面上所有表单的所有输入。我怎样才能做到这一点？我在这里xpath context找到了一些文档，但这似乎不是我想要的。

python xpath lxml

2009-11-12T20:48:01.923

0 投票

3 回答

4514 浏览

python - lxml 是否可以以不区分大小写的方式工作？

我正在尝试从任意网站上抓取 META 关键字和描述标签。我显然无法控制上述网站，所以必须接受我所得到的。它们有各种标签和属性的大小写，这意味着我需要不区分大小写。我无法相信 lxml 作者会固执地坚持完全强制标准合规性，因为它排除了对其库的大部分使用。

我想能够说doc.cssselect('meta[name=description]')（或某些 XPath 等效项），但这不会捕获<meta name="Description" Content="...">由于其他大写字母 D 的标签。

我目前正在使用它作为解决方法，但这太可怕了！

似乎标签名称meta不区分大小写，但属性不是。meta如果区分大小写，那就更烦人了！

python css-selectors lxml case-sensitive case-insensitive

2009-11-14T12:35:07.580

0 投票

3 回答

1687 浏览

python - 使用 lxml 将 XML 片段作为样式表参数传递？

我开始lxml在 Python 中使用来处理 XML/XSL 文档，而且总的来说它看起来非常简单。但是，在进行翻译时，我找不到将 XML 片段作为样式表参数传递的方法。

例如，在 PHP 中，可以将DOMDocumentXML 片段作为样式表参数传递，这样就可以在样式表中使用复杂的参数：

这将导致：

如何使用来完成此操作lxml？

python xml xslt lxml

2009-11-18T14:54:38.897

0 投票

1 回答

895 浏览

python - 有没有办法用 lxml 解析 html，但用 minidom 操作它？

我有一个应用程序，我一直在使用 html5lib 来自由解析 html。我使用 minidom 接口，因为我需要一个真正的 DOM API，而 ElementTree 不适合我正在做的事情。

这是我如何做到这一点：

但是，解析大文件正在成为性能瓶颈，lxml 解析比 html5lib 快大约 80 倍（我对其进行了基准测试）。

如何使用 lxml 或类似快速的 bad-html 容错库进行解析，并使用与 DOM 兼容的 API 进行操作？

python html dom parsing lxml

2009-11-20T17:25:15.057

0 投票

2 回答

8448 浏览

python - 用 lxml.html 替换元素

作为一个整体，我对 lxml 和 HTML 解析器相当陌生。我想知道是否有办法用另一个元素替换树中的元素......

例如我有：

我想按照这些思路做一些事情，但这会导致“TypeError”，因为“hilited”不是 lxml.etree._Element。

这可行吗？

问候，

python lxml

2009-11-28T15:22:58.813

0 投票

4 回答

1182 浏览

python - Python：从 XML 文件中提取 HTML

我的 XML 文件如下所示：

我想在维护内部标签的同时提取每个 <string> 的内容。也就是说，我希望看到以下 Python 字符串：u"Bla <b>One & Two</b> Foo"。或者，我想我可以选择 u"Bla <b>One & Two</b> Foo"，然后尝试自己替换实体。

我目前正在使用 lxml，它允许我迭代嵌套标签，错过不在标签内的文本，或者在所有文本内容（itertext）上，丢失标签信息。我可能错过了一些东西。

如果可能的话，我更愿意保留 lxml，但如果需要，我可以切换到另一个库。

python html xml lxml

2009-11-29T07:38:31.373

问题标签 [lxml]

python - 如何使用 lxml 提取一些文本？

django - 如何使用 lxml 从网站获取消息？

xml - 如何从 XPath 中的标记中选择未知层数的节点？

python - Python 2.6.x 的 XML/XSL 库的选择

python - Lxml html xpath 上下文

python - lxml 是否可以以不区分大小写的方式工作？

python - 使用 lxml 将 XML 片段作为样式表参数传递？

python - 有没有办法用 lxml 解析 html，但用 minidom 操作它？

python - 用 lxml.html 替换元素

python - Python：从 XML 文件中提取 HTML

问题标签 [lxml]

Reference