1

我正在尝试制作一些东西,允许人们从例如边缘的文章中输入网址。它的作用是读取 url/article 并以一种很好的方式显示它,比如可读性。但我真的被困住了,我无法在任何地方找到有关如何做到这一点的信息。有没有关于如何做到这一点的api。它实际上不是只扫描整个 rss 提要一篇文章。

4

3 回答 3

0

应该是最简单的方法:http ://simplehtmldom.sourceforge.net/

您可以简单地定位元素,例如使用 css/jquery

于 2012-09-02T09:54:10.513 回答
0

您可以使用正则表达式快速完成此操作,也可以导入 DOM。请注意,适用于一个网站的解决方案不太可能在没有更改的情况下适用于另一个网站,无论您使用正则表达式还是正确解析 DOM。

于 2012-09-02T09:56:16.503 回答
0

您正在寻找锅炉管。它应该完全符合您的要求。甚至还有一个 Web API。您还可以下载该模块并从 Python 脚本中使用它。

您可以在此处选择一篇文章对其进行测试:http: //boilerpipe-web.appspot.com。只需选择 ArticleExtractor 作为提取器。

于 2012-09-05T15:47:45.513 回答