0

所以我只是在尝试,尝试使用 python 解析网络,我想我会尝试制作一个脚本来搜索我最喜欢的链接以在线观看节目。我现在正试图通过 sidereel.com 搜索我的节目,以找到我想要的节目的良好链接,并将链接返回给我。我知道该网站以以下格式保存链接:

watch-freeseries.mu'then 一些我需要忽略的长字符串,然后是 '14792088'

所以我需要做的是在网站的 txt 文件中找到这个字符串,然后只返回字符串末尾的 8 个数字。我不确定如何获得这些号码,我需要它们,因为它们是链接号码。任何帮助将非常感激

4

1 回答 1

2

您可以使用正则表达式相当容易地做到这一点。

>>> import re
>>> text = "watch-freeseries.mu=lklsflamflkasfmsaldfasmf14792088"
>>> expr = re.compile("watch\-freeseries\.mu.*?(\d{8})")
>>> expr.findall(text)
['14792088']

表达式分解:

watch\-freeseries\.mu- 匹配预期表达式的开头。转义任何可能的特殊字符,方法是在它们前面加上\.

.*?- 匹配任何字符。.表示任何字符,并*表示一个接一个地出现无数次。这?是执行非贪婪匹配,以便如果两个或多个 url 出现在同一字符串中,则匹配不会重叠。

(\d{8})- 匹配并保存最后 8 位数字

注意:如果您尝试从网页中解析链接,则有更简单的方法。我在 StackOverflow 上看到了很多关于 BeautifulSoup 包的建议。我自己从来没有用过它,所以YMMV。

于 2013-01-26T21:49:49.817 回答