我正在用 Python 做一个小项目。它分为两部分。
第一部分负责抓取网络并提取一些信息并将它们插入数据库。
第二部分负责使用数据库呈现这些信息。两个部分共享数据库。在第二部分中,我使用 Flask 框架将信息显示为带有一些格式、样式等的 html,以使其看起来更清晰。
两个部分的源文件都在同一个包中,但是要正确运行这个程序,用户必须像这样分别运行爬虫和结果展示器:
蟒蛇爬虫.py
进而
蟒蛇演示者.py
一切都很好,只是除了一件事。我的演示者要做的是创建 html 格式的结果并在用户的默认浏览器中打开带有结果的页面,但它总是打开两次,可能是由于存在 run() 方法,它在新线程中启动 Flask 和对我来说,事情变得多云。我不知道我应该怎么做才能让我的 Presenter.py 在运行后只打开一个选项卡/窗口。
这是我的代码片段:
from flask import Flask, render_template
import os
import sqlite3
# configuration
DEBUG = True
DATABASE = os.getcwd() + '/database/database.db'
app = Flask(__name__)
app.config.from_object(__name__)
app.config.from_envvar('CRAWLER_SETTINGS', silent=True)
def connect_db():
"""Returns a new connection to the database."""
try:
conn = sqlite3.connect(app.config['DATABASE'])
return conn
except sqlite3.Error:
print 'Unable to connect to the database'
return False
@app.route('/')
def show_entries():
u"""Loads pages information and emails from the database and
inserts results into show_entires template. If there is a database
problem returns error page.
"""
conn = connect_db()
if conn:
try:
cur = connect_db().cursor()
results = cur.execute('SELECT url, title, doctype, pagesize FROM pages')
pages = [dict(url=row[0], title=row[1].encode('utf-8'), pageType=row[2], pageSize=row[3]) for row in results.fetchall()]
results = cur.execute('SELECT url, email from emails')
emails = {}
for row in results.fetchall():
emails.setdefault(row[0], []).append(row[1])
return render_template('show_entries.html', pages=pages, emails=emails)
except sqlite3.Error, e:
print ' Exception message %s ' % e
print 'Could not load data from the database!'
return render_template('show_error_page.html')
else:
return render_template('show_error_page.html')
if __name__ == '__main__':
url = 'http://127.0.0.1:5000'
webbrowser.open_new(url)
app.run()