我正在使用 Goose 从各种 URL 中提取标题和正文。它适用于大多数 URL,除了一个特定的荷兰新闻网站。知道这里出了什么问题吗?
具体有问题的网址在这里。
我的代码:
g = Goose()
content_url = g.extract(url=url)
allcontent = content_url.cleaned_text
print allcontent
我期待整个文本,但奇怪的是,我只是随机从文章中得到以下段落。
Toerisme was een groot goed toen het een voorrecht was van de elite. Maar nu de massa in het voetspoor treedt van Floortje Dessing gaat het van kwaad tot erger. Het verplaatsen van mensen per cruiseboot of jumbojet is milieubelastend. Toeristen die de bloemetjes buiten zetten, veroorzaken geluidsoverlast in de kleine uurtjes. Toeristenplaatsen veranderen buiten het seizoen in spookoorden. En een bezoek aan de yakherders in Mongolië is een stuk minder interessant als blijkt dat de buren er twee maanden eerder ook waren geweest.