11

我正在用 Python 做一个小项目。它分为两部分。

第一部分负责抓取网络并提取一些信息并将它们插入数据库。

第二部分负责使用数据库呈现这些信息。两个部分共享数据库。在第二部分中,我使用 Flask 框架将信息显示为带有一些格式、样式等的 html,以使其看起来更清晰。

两个部分的源文件都在同一个包中,但是要正确运行这个程序,用户必须像这样分别运行爬虫和结果展示器:

蟒蛇爬虫.py

进而

蟒蛇演示者.py

一切都很好,只是除了一件事。我的演示者要做的是创建 html 格式的结果并在用户的默认浏览器中打开带有结果的页面,但它总是打开两次,可能是由于存在 run() 方法,它在新线程中启动 Flask 和对我来说,事情变得多云。我不知道我应该怎么做才能让我的 Presenter.py 在运行后只打开一个选项卡/窗口。

这是我的代码片段:

from flask import Flask, render_template
import os
import sqlite3


# configuration
DEBUG = True
DATABASE = os.getcwd() + '/database/database.db'

app = Flask(__name__)
app.config.from_object(__name__)
app.config.from_envvar('CRAWLER_SETTINGS', silent=True)



def connect_db():
    """Returns a new connection to the database."""
    try:      
        conn = sqlite3.connect(app.config['DATABASE'])
    return conn
except sqlite3.Error:
    print 'Unable to connect to the database'
    return False


@app.route('/')
def show_entries():
    u"""Loads pages information and emails from the database and
    inserts results into show_entires template. If there is a database
    problem returns error page.
    """
    conn = connect_db()


    if conn:        
    try:            
        cur = connect_db().cursor()

        results = cur.execute('SELECT url, title, doctype, pagesize FROM pages')    
        pages = [dict(url=row[0], title=row[1].encode('utf-8'), pageType=row[2], pageSize=row[3]) for row in results.fetchall()]   


        results = cur.execute('SELECT url, email from emails')
        emails = {}


        for row in results.fetchall():                
            emails.setdefault(row[0], []).append(row[1])                

        return render_template('show_entries.html', pages=pages, emails=emails)

    except sqlite3.Error, e:
        print ' Exception message %s ' % e
        print 'Could not load data from the database!'
        return render_template('show_error_page.html')


else:
    return render_template('show_error_page.html')        


if __name__ == '__main__':
    url = 'http://127.0.0.1:5000'
    webbrowser.open_new(url)
    app.run()
4

1 回答 1

30

我一直在 Mac OS X(带有 Safari、Firefox 和 Chrome 浏览器)上使用类似的代码,并且运行良好。猜你可能会遇到 Flask 的自动重载功能。设置debug=False,它不会尝试自动重新加载。

其他建议,根据我的经验:

  • 考虑随机化您使用的端口,因为快速编辑-运行-测试循环有时会发现操作系统认为端口 5000 仍在使用中。(或者,如果您同时运行代码多次,比如不小心,端口确实仍在使用中。)
  • 在启动浏览器请求之前,请给应用程序一点时间来启动。我通过调用threading.Timer.

这是我的代码:

import random, threading, webbrowser

port = 5000 + random.randint(0, 999)
url = "http://127.0.0.1:{0}".format(port)

threading.Timer(1.25, lambda: webbrowser.open(url) ).start()

app.run(port=port, debug=False)

(如果您愿意,这一切都在if __name__ == '__main__':,或者在单独的“启动应用程序”功能中。)

于 2012-06-20T19:09:51.880 回答