我在我正在开发的 Flask 应用程序中发现了一个奇怪的东西。Flask API 旨在接收新闻文章 url,抓取它(使用报纸库)并预测抓取文本的类别。
但是,当我直接在 Python (Spyder) 中运行 Crawler 时,它会按预期返回文章文本。
from newspaper import Article
url='https://www.dev-insider.de/index.cfm?pid=15010&pk=676039'
article = Article(str(url) , browser_user_agent = 'Chrome', http_success_only=False)
article.download()
article.parse()
print(article.text)
这就像一个魅力。如果我现在在 Flask 应用程序中运行同一段代码,它会生成一些其他字符串,这些字符串属于 Crawled url 的导航:
from flask import Flask
from newspaper import Article
from flask import request
app = Flask(__name__)
app.config['JSON_AS_ASCII'] = False
app.config['MAX_CONTENT_LENGTH'] = 1000000
#url='https://www.dev-insider.de/index.cfm?pid=15010&pk=676039'
@app.route('/test')
def bla():
url = request.args.get('url')
article = Article(str(url) , browser_user_agent = 'Chrome', http_success_only=False)
article.download()
article.parse()
text_raw = article.text
return text_raw
if __name__ == '__main__':
app.run(host='0.0.0.0', port=5000)
基本上,第一个片段返回完整的文章文本,而第二个片段返回:
Sie befinden sich hier: DevOps > 配置管理 Sie sind noch nicht angelmeldet 注册 | 通讯
我希望我把问题说清楚了。如果不是,请告诉我。
任何想法发生了什么?