Find centralized, trusted content and collaborate around the technologies you use most.
Teams
Q&A for work
Connect and share knowledge within a single location that is structured and easy to search.
我真的有兴趣根据开发这样的页面排名算法来制作我的 GP,而不是构建我自己的搜索引擎。
有没有办法在没有搜索引擎的情况下测试我的算法?
假设您有兴趣在网络上进行测试,因为从 PageRank 的角度来看,大多数非网络数据集并不那么有趣:
commoncrawl.org 有一个网络爬虫,您可以在 AWS 中相对便宜地处理它;这可能会在此过程中摆脱很多工作。