问题标签 [web-crawler]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
email - 保护网站上的电子邮件免受机器人和爬虫的侵害
已关闭作为副本有哪些方法可以保护网站上的电子邮件免受垃圾邮件机器人的侵害?
我终于建立了我的个人网站。我想在每个页面上发布网站管理员/反馈电子邮件,但我担心垃圾邮件爬虫会提取电子邮件地址并轰炸我。尤其如此,因为在这种情况下我不能使用我的正常的面向白名单的过滤。是否有有效的方法将电子邮件地址传达给爬虫难以提取的人?
我的长期计划是允许通过张贴的表格进行反馈(然后我会对你们所有人提出关于验证码的问题),但我现在没有时间(这不是当务之急),我不想在没有任何反馈的情况下上线。
solr - Xapian 的爬虫/解析器
我想实现一个搜索引擎,它应该抓取一组网站,从页面中提取特定信息并创建该特定信息的全文索引。
在我看来,Xapian 可能是搜索引擎库的不错选择。
爬虫/解析器与 Xapian 集成的选项有哪些?
在与开源爬虫/解析器集成时,Solr 会比 Xapian 更好吗?