如何找出两个单词或两组随机字符之间的内容?
抓取的页面不保证仅为 Html,重要数据可以在 javascript 块内。所以,我无法删除 JavaScript。
考虑一下:
<html>
<body>
<div>StartYYYY "Extract HTML", ENDYYYY
</body>
Some Java Scripts code STARTXXXX "Extract JS Code" ENDXXXX.
</html>
因此,如您所见,html 标记可能不完整。我可以获取页面,然后不用担心任何事情,我想找到名为“提取名称”和“在 JavaScript 中提取数据”的内容。
我正在寻找的是在 python 中:
像这样:
data = FindBetweenText(UniqueTextBeforeContent, UniqueTextAfterContent, page)
下载页面的位置和数据将包含我正在寻找的文本。我宁愿远离 regEx,因为有些情况对于 RegEx 来说可能太复杂了。