0

我正在构建一个 Web 应用程序,它处理网页中的文本,添加指向某些实体的链接,然后完全按照原样重新显示页面,但添加了一些链接。我的服务器端代码在 Perl 和 Python 中,我目前正在使用 HTML::Parser 从页面中提取文本。我可以毫无问题地清理标记、提取和处理文本,但我想完全按原样显示原始页面,只是在以前未链接的文本中添加了一些链接。

我希望找到最好的方法来重新显示完全相同的页面,并将链接添加到文本中的某些单词或短语。所有原始标记都应完全保留在提取文本之前的状态。

我已经彻底搜索过,但我找不到这个问题的精确解决方案。任何帮助将不胜感激。

4

1 回答 1

0

我确实知道 Python 有一个用于打开网页的模块,称为 urllib:

import urllib
url = 'https://www.google.com/'
page = urllib.urlopen(url)
print page.read()    
#page.read is the url's source code, so you would print the source  code here. 

您还可以使用 python 保存一个新的 html 文件,如下所示:

page = page.read()
file = open('url.html', 'w')
file.writelines(page)
file.close()

在这两者之间,您可以修改 html 源代码。请记住,如果您不知道如何保存页面正在使用的文件,这些网页看起来会很傻。希望这可以帮助。

于 2012-04-12T17:03:27.903 回答