1

我正在尝试为 mako.co.il 编写一个 xbmc 插件(我知道有一个 xbmako,但我无法在 linux 上安装它)。当我尝试对剧集网站进行正则表达式时,我没有得到任何结果。我试过这个网页,我可以找到链接使用a href=".*?">\n\t*<img

这是一个测试站点: http: //www.mako.co.il/mako-vod-keshet/aharoni_cooks

这是教程: http ://wiki.xbmc.org/index.php?title=HOW-TO_write_plugins_for_XBMC

我认为它与换行符有关,我想到的解决方案是搜索a href=".*?">后面跟着任何东西的任何东西,然后\t<img

编辑:
好的,所以我尝试使用这种 dom xml 解析样式。我现在被卡住了,因为在第 101 行我有一个(javascript?)部分带有一个 for 循环,解析器认为它是一个标签......

4

2 回答 2

0

使用 DOM 解析器

您不应手动解析 HTML 文件。相反,请尝试使用 DOM 解析器。我建议将 minidomElementTree用于一般的 Python 代码。

XBMC

既然您提到了 XBMC,我建议您使用专为此目的设计的Parsedom插件。

插件页面向您展示如何列出所有a标签或选择某些标签。

于 2012-12-04T20:59:53.297 回答
0

该站点使用 CR-LF 换行,但您的正则表达式假定它们是 LF。您可以通过检查两种样式来解决这个问题:

a href=".*?">\r?\n\t*<img
于 2011-08-26T02:44:46.980 回答