我想获取特定新闻源的 xml 文件,如果有任何项目将 html 新闻转换为 xml,解析页面并在单个 xml 或类似文件中标记其各种特征,例如日期、作者姓名、标题、内容等文件类型。例如看这个链接: http ://daily.bhaskar.com/article/NAT-TOP-yeddyurappa-breaks-venkaiah-naidus-laptop-slaps-minister-reports-2318460.html 如何提取内容、作者、日期等从这个网页。或者,如果我能找到这个网页的提要,我可以轻松地做到这一点。但是我该如何搜索。
问问题
151 次
2 回答
0
要确定页面是否有提要,请扫描 HTML 以查找具有这些rel和type属性的特定 <link> 标记:
<link rel="alternate" type="application/rss+xml" title="Page as RSS"
href="http://example.com/page/feed">
提要 URL 存储在href属性中。这种机制称为RSS 自动发现
于 2011-08-03T13:13:38.530 回答
0
您使用的是哪种技术?
如果它是纯粹的客户端/Web 解决方案,那么您会在之前的 StackOverflow 问题中找到 js 选项。如果您在服务器端,您可以使用 WebClient/LINQ 访问 ATOM 提要并解析它
于 2011-08-02T08:10:41.733 回答