2

这里提出的许多问题都与我正在进行的研究有关。这些问题和答案分布广泛,并不总是很容易找到,进行手动浏览,有时也会在不相关的主题中出现有见地的答案或评论。

我想根据关键字集自动查找这些相关的问答,然后将这些信息用作进一步深入研究的指针。

我可以使用哪些工具(最好是开源工具)来进行这种类型的站点挖掘?我不是网络专家,对我来说,尝试开发它们需要很长时间,而且还会影响我本可以花在研发上的时间。

4

4 回答 4

1

另一种选择是使用Yahoo! 管道。(演示

您可以结合使用提要 url、过滤器等在线可视化地构建这样的系统...与编程相比,学习时间最短。[编辑:时态]

于 2008-10-03T06:28:33.577 回答
1

从您的问题中不清楚您是否是程序员,所以我不确定您是否在追求您想要的应用程序或服务意义上的工具,或者一个使站点挖掘更容易的库。

如果是后者并且您使用 ruby​​,我可以彻底推荐WWW::Mechanize。它提供了一个很好的 API,用于编写脚本来搜索网页(通过 DOM 或文本)、跟踪链接和填写表单。我已经多次使用它来组织分布在站点内多个网页上的信息。

我相信 ruby​​ 版本是基于早期的 perl 库,但我不能保证我没有使用过的 perl 版本。

于 2008-10-04T07:37:28.763 回答
0

在这种情况下,人机交互工具可能很有用(没有开发成本,可能更一致的结果,以及不断变化的需求)。

想到了情侣:

于 2008-10-03T06:16:35.930 回答
0

所有基于关键字的标签都附有 RSS 提要,所以我会先订阅相关关键字并搜索数据。这似乎是查找相关概念和其他相关关键字的最简单方法。

于 2008-10-03T06:20:27.713 回答