这里提出的许多问题都与我正在进行的研究有关。这些问题和答案分布广泛,并不总是很容易找到,进行手动浏览,有时也会在不相关的主题中出现有见地的答案或评论。
我想根据关键字集自动查找这些相关的问答,然后将这些信息用作进一步深入研究的指针。
我可以使用哪些工具(最好是开源工具)来进行这种类型的站点挖掘?我不是网络专家,对我来说,尝试开发它们需要很长时间,而且还会影响我本可以花在研发上的时间。
这里提出的许多问题都与我正在进行的研究有关。这些问题和答案分布广泛,并不总是很容易找到,进行手动浏览,有时也会在不相关的主题中出现有见地的答案或评论。
我想根据关键字集自动查找这些相关的问答,然后将这些信息用作进一步深入研究的指针。
我可以使用哪些工具(最好是开源工具)来进行这种类型的站点挖掘?我不是网络专家,对我来说,尝试开发它们需要很长时间,而且还会影响我本可以花在研发上的时间。
从您的问题中不清楚您是否是程序员,所以我不确定您是否在追求您想要的应用程序或服务意义上的工具,或者一个使站点挖掘更容易的库。
如果是后者并且您使用 ruby,我可以彻底推荐WWW::Mechanize。它提供了一个很好的 API,用于编写脚本来搜索网页(通过 DOM 或文本)、跟踪链接和填写表单。我已经多次使用它来组织分布在站点内多个网页上的信息。
我相信 ruby 版本是基于早期的 perl 库,但我不能保证我没有使用过的 perl 版本。
所有基于关键字的标签都附有 RSS 提要,所以我会先订阅相关关键字并搜索数据。这似乎是查找相关概念和其他相关关键字的最简单方法。