python - Python Flask 应用程序直接返回与 python 不同的（抓取的）字符串

Question

我在我正在开发的 Flask 应用程序中发现了一个奇怪的东西。Flask API 旨在接收新闻文章 url，抓取它（使用报纸库）并预测抓取文本的类别。

但是，当我直接在 Python (Spyder) 中运行 Crawler 时，它会按预期返回文章文本。

from newspaper import Article

url='https://www.dev-insider.de/index.cfm?pid=15010&pk=676039'
article = Article(str(url) , browser_user_agent = 'Chrome', http_success_only=False)
article.download()
article.parse()
print(article.text)

这就像一个魅力。如果我现在在 Flask 应用程序中运行同一段代码，它会生成一些其他字符串，这些字符串属于 Crawled url 的导航：

from flask import Flask
from newspaper import Article
from flask import request

app = Flask(__name__)
app.config['JSON_AS_ASCII'] = False
app.config['MAX_CONTENT_LENGTH'] = 1000000

#url='https://www.dev-insider.de/index.cfm?pid=15010&pk=676039'
@app.route('/test')
def bla():
    url = request.args.get('url')    
    article = Article(str(url) , browser_user_agent = 'Chrome', http_success_only=False)
    article.download()
    article.parse()
    text_raw = article.text
    return text_raw

if __name__ == '__main__':
    app.run(host='0.0.0.0', port=5000)

基本上，第一个片段返回完整的文章文本，而第二个片段返回：

Sie befinden sich hier: DevOps > 配置管理 Sie sind noch nicht angelmeldet 注册 | 通讯

我希望我把问题说清楚了。如果不是，请告诉我。

任何想法发生了什么？

score 1 · Accepted Answer

如果您将 url 作为查询字符串传递，则需要确保 url 已正确编码并在您的代码中再次解码。这意味着您可以使用以下方式调用该应用程序：

http://localhost/test?=https%3A%2F%2Fwww.dev-insider.de%2Findex.cfm%3Fpid%3D15010%26pk%3D676039

据我所知，flask 已经为您解码查询字符串，所以应该没问题，您不需要自己解码。

URL 规范描述了 URL 的格式。如果你只是粘贴一个没有编码的 URL，它基本上会破坏格式。

RFC-1738说：

HTTP URL 采用以下形式：
 http://<host>:<port>/<path>?<searchpart>

python - Python Flask 应用程序直接返回与 python 不同的（抓取的）字符串

1 回答 1

Related

Reference