python - 从txt文件中提取字符串

Question

所以我只是在尝试，尝试使用 python 解析网络，我想我会尝试制作一个脚本来搜索我最喜欢的链接以在线观看节目。我现在正试图通过 sidereel.com 搜索我的节目，以找到我想要的节目的良好链接，并将链接返回给我。我知道该网站以以下格式保存链接：

watch-freeseries.mu'then 一些我需要忽略的长字符串，然后是 '14792088'

所以我需要做的是在网站的 txt 文件中找到这个字符串，然后只返回字符串末尾的 8 个数字。我不确定如何获得这些号码，我需要它们，因为它们是链接号码。任何帮助将非常感激

score 2 · Accepted Answer

您可以使用正则表达式相当容易地做到这一点。

>>> import re
>>> text = "watch-freeseries.mu=lklsflamflkasfmsaldfasmf14792088"
>>> expr = re.compile("watch\-freeseries\.mu.*?(\d{8})")
>>> expr.findall(text)
['14792088']

表达式分解：

watch\-freeseries\.mu- 匹配预期表达式的开头。转义任何可能的特殊字符，方法是在它们前面加上\.

.*?- 匹配任何字符。.表示任何字符，并*表示一个接一个地出现无数次。这?是执行非贪婪匹配，以便如果两个或多个 url 出现在同一字符串中，则匹配不会重叠。

(\d{8})- 匹配并保存最后 8 位数字

注意：如果您尝试从网页中解析链接，则有更简单的方法。我在 StackOverflow 上看到了很多关于 BeautifulSoup 包的建议。我自己从来没有用过它，所以YMMV。

python - 从txt文件中提取字符串

1 回答 1

Related

Reference