0

我想解析网站的 RSS 提要并想要获取内容(例如文章)并希望将它们放入数据库中。后来我还想根据搜索关键字对它们进行索引。谁能告诉如何进行?什么工具最适合用于此?我搜索了 Apache lucene、solr 和 apache nutch。但是我仍然不清楚如何用java等编程语言来实现它。谁能提供有关实施的更多详细信息。

提前致谢。

4

1 回答 1

2

首先,我要通读Java API for XML Processing

接下来,我将熟悉一些网络 API……

我也会熟悉xPathxPath 的工作原理,这对于查找您感兴趣的部分文档很有用。

接下来,我将成为JDBC(TM) 数据库访问

这应该只是涵盖了基础知识。

一旦您对技术有了基本的了解,您就需要考虑设计。我将它元素分离到它自己的项目中。

将数据下载、解析、排序和插入数据库作为一个项目处理。

在另一个中处理搜索和检索。

这将突出显示重叠区域并向您显示需要提供公共库的位置。

于 2012-09-29T05:53:06.500 回答