我想解析网站的 RSS 提要并想要获取内容(例如文章)并希望将它们放入数据库中。后来我还想根据搜索关键字对它们进行索引。谁能告诉如何进行?什么工具最适合用于此?我搜索了 Apache lucene、solr 和 apache nutch。但是我仍然不清楚如何用java等编程语言来实现它。谁能提供有关实施的更多详细信息。
提前致谢。
我想解析网站的 RSS 提要并想要获取内容(例如文章)并希望将它们放入数据库中。后来我还想根据搜索关键字对它们进行索引。谁能告诉如何进行?什么工具最适合用于此?我搜索了 Apache lucene、solr 和 apache nutch。但是我仍然不清楚如何用java等编程语言来实现它。谁能提供有关实施的更多详细信息。
提前致谢。
首先,我要通读Java API for XML Processing。
接下来,我将熟悉一些网络 API……
我也会熟悉xPath和xPath 的工作原理,这对于查找您感兴趣的部分文档很有用。
接下来,我将成为JDBC(TM) 数据库访问
这应该只是涵盖了基础知识。
一旦您对技术有了基本的了解,您就需要考虑设计。我将它元素分离到它自己的项目中。
将数据下载、解析、排序和插入数据库作为一个项目处理。
在另一个中处理搜索和检索。
这将突出显示重叠区域并向您显示需要提供公共库的位置。