0

我正在努力建立一个URL索引。目标是构建和存储一个数据结构,该结构具有作为域 URL 的键(例如 www.nytimes.com),值将是与该 URL 关联的一组特征。我正在寻找您对这组功能的建议。例如,我想将 www.nytimes.com 存储如下:

[www.nytimes.com: [lang:en, alexa_rank:96, content_type:news, spam_probability: 0.0001, etc..]

为什么我要建造这个?好吧,最终目标是用这个索引做一些有趣的事情,例如我可以在这个索引上进行聚类并找到有趣的组等。我有很多文本,这些文本是由整个时间段内的大量 URL 生成的很多时间:) 所以数据不是问题。

任何形式的建议都非常受欢迎。

4

2 回答 2

0

I would maybe start here: Google white papers on IR

Then also search for white papers on IR on Google maybe?

Also a few things to add to your index:

  1. Subdomains associated with the domain
  2. IP addresses associated with the domain
  3. Average page speed
  4. Links pointing at the domain in Yahoo - e.g link:nytimes.com or search on yahoo
  5. Number of pages on the domain - site:nytimes.com on Google
  6. traffic nos on compete.com or google trends
  7. whois info e.g. age of domain, length of time registered for etc.

Some other places to research - http://www.majesticseo.com/, http://www.opensearch.org/Home and http://www.seomoz.org they all have their own indexes

I'm sure theres plenty more but hopefully the IR stuff will get the cogs whirring :)

于 2010-02-28T02:54:18.043 回答
0

首先使用您已经建议的内容。然后开始添加其他人建议的功能。

除非执行,否则想法一文不值。

-- http://www.codinghorror.com/blog/2010/01/cultivate-teams-not-ideas.html

于 2010-02-28T01:40:27.853 回答