我正在开展一个标准化 URL 的项目。(即应该识别映射到同一网页的不同 URL,并且应该像搜索引擎一样减少冗余)。
所以我想要一个包含不同 URL 的数据集来测试我的方法。请提供标准化数据集的链接。
我正在用 C# 实现这个项目,我想要你的建议。提前致谢。
我正在开展一个标准化 URL 的项目。(即应该识别映射到同一网页的不同 URL,并且应该像搜索引擎一样减少冗余)。
所以我想要一个包含不同 URL 的数据集来测试我的方法。请提供标准化数据集的链接。
我正在用 C# 实现这个项目,我想要你的建议。提前致谢。
既然你问I'd like your suggestions
了,让你的问题非常开放,因此你可能会得到什么样的建议,我会继续给你我的建议。虽然我承认我不是 100% 确定你想解决什么问题?您是否要求提供特定于程序/代码的建议?如何建立这样一个项目的策略?或者您想收集灵感/想法并改进您现有的工作流程?如果你正在寻找第三件事,我建议看一下两个场景,灵感来自我的一位人工智能老师曾经做过的演讲。让我们来看看蚁群是如何组织起来的:
自上而下的方法:一种幻想想象一下蚂蚁学中的一个蚁后为每只蚂蚁规定了它们通往子群落的路线,从而规范了各种蚂蚁前往同一个地方的多条追踪路线,那么你似乎想要分组蚂蚁在一起,让每组只使用 1 条路线到达目标,并删除可能的重复路线。这是如何使他们的路线更有效率的一种方法。实际上蚂蚁的工作方式不同:
自下而上的方法:现实: 一只蚂蚁没有什么意义,但当研究整个蚁群时,一个组织就会显露出来。这是因为蚂蚁本身会跟随其他蚂蚁的气味痕迹,这样会互相跟随,最终找到通往巢穴的路。这样,聪明才智不需要来自上面/来自中央数据库,但每只蚂蚁内置的一点点智能将使相同的路径可重用。>> 这样,您可能想考虑在每个需要规范化的超链接中构建规范化技术。
我希望这可以为您提供您希望的建议,否则如果您的问题不是基于策略而是与特定代码问题相关,请在其中提出程序代码的问题,这通常比找到最佳策略更容易解决。祝你好运!我的 2 美分。