我喜欢 Ruby 及其框架,但我不认为 Ruby On Rails 是开发 Feed-parser 和 Indexer 的最佳选择。
也许 Python 或 Java 是更好的选择。你建议什么语言?
Feed(RSS?)通常结构良好(至少与常规网页相比)。查看Web Harvest,一个基于 Java / bean shell 的 DOM 解析器(除其他外)。您可以使用它来自动从互联网上抓取数据。您必须学习一种特定于领域的语言(以 XML 定义)。它的学习曲线可能有点陡峭,但我觉得这是非常值得的努力。
我认为 Ruby 可以胜任以下任何类型的任务:
如果您对 Ruby 感到满意,我认为没有理由使用 Java、Python 等。对于大多数任务。请记住,许多 Ruby 库都基于本机实现。
我对 Java 不是很熟悉,但我可以说 Python 非常适合这项工作。
有一个名为 BeautifulStoneSoup 的非常快速的 XML 解析器模块,您可以使用它。它是 BeautifulSoup 库的一部分。如果你只是在寻找一个简单的索引器,Python 有一个内置的 sqlite 引擎,它也是轻量级且非常快的。