我想编写一个在线应用程序:
- 从浏览器地址栏读取 URL
- 提取其词汇特征(如 n-gram)
- 提取其基于主机的特征(在线获取 DNS 记录、其 A、PTR、TTL 字段)
- 将 URL 分类为恶意或良性(使用机器学习)
谁能帮我解决1和3?
我想编写一个在线应用程序:
谁能帮我解决1和3?
我不相信这个(应用程序)是您可以完成的任务,因为您无法真正根据 url 确定网站内容。
请参阅类似Mozilla 网络钓鱼防护设计文档和 Google 安全浏览规范之类的内容
不知道你可能在看什么语言。
对于第 1 项,这里是一个可能有用的 .net 库
http://msdn.microsoft.com/en-us/library/system.web.httputility.aspx