0

我想写一个单词搜索,它连接到一个特定的网站(一个巨大的),从用户那里获取单词,搜索站点并返回包含该单词的字符串;这应该用 java 和 applet 编写。我有阅读一些关于此的教程和问题,并了解必须做的是:

1.连接到网站并获取网站内容并将其保存到字符串。(这应该使用网络爬虫完成,该爬虫将由我自己的用于连接网站的代码制成,并将内容保存到字符串 + jsoup 库解析html代码)。

2.将数据保存到数据库(在我的情况下为 nosql 数据库)。

3.索引数据库中的数据。

4.查询数据库以显示结果。

5.制作一个显示搜索结果的UI(我使用swing.japplet)。

现在我的问题是:

1.我是否正确理解了我必须走的步骤?(如果一个步骤是不必要或必要的,请详细解释我)

2.有必要有数据库吗?

注意:我想自己实现它,不使用现成的东西,如 lucene,nutch,solr,...

编辑:3人告诉我小程序不适合这样的事情,那么应该更换什么?

非常感谢您的帮助。

4

3 回答 3

0

对于小数据集,数据库应该足够了。mysql等数据库自带全文搜索功能

对于更大的数据集,您可能需要考虑LuceneSolr

于 2013-10-05T05:54:28.463 回答
0

这是实现这一点的一种方法。另一种(更简单)的方法是使用现有的文本搜索/索引引擎,如 Lucene/Solr。除非您有充分的技术理由,否则使用数据库技术重新实现“文本搜索/索引”轮的工作在我看来是浪费精力。

您确实需要某种数据库,因为动态索引网站根本行不通。Lucene 会处理这个问题。

我认为您选择 Java 小程序来构建 UI 是一个坏主意。还有其他技术可以提供同样好或更好的结果……没有 Java 浏览器插件的安全风险。


最后,使您的网站可搜索的另一种方法是让 Google 为您做这件事。使您的网站内容可索引,然后使用 Google 的搜索 API。

于 2013-10-05T05:56:14.037 回答
0

您应该考虑使用 Lucene,因为它可以完成您想要的大部分工作。

你不应该使用小程序。

于 2013-10-05T05:52:18.113 回答