问题标签 [bots]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
3 回答
1557 浏览

perl - 如何使我的 Perl Jabber 机器人成为事件驱动程序?

我正在尝试制作 Jabber 机器人,但在等待消息时无法保持其运行。如何让我的脚本连续运行?我尝试调用一个子程序,该子程序有一个 while 循环,理论上我已经设置它来检查任何消息并做出相应的反应,但我的脚本并没有那样做。

这是我的来源: http: //pastebin.com/03Habbvh

0 投票
1 回答
1516 浏览

gmail - 如何构建 gmail 聊天机器人?

我读过类似的问题,但他们谈论的是人工智能模型。我想要做的是构建一个简单的机器人,它接受预定义的命令并执行所需的操作。不需要学习。我已经准备好了整个流程图。我需要的是获取用户在他/她的聊天中键入的命令。

0 投票
1 回答
702 浏览

indexing - Why is Yahoo Indexing Bot considered as "evil"?

After reading and commenting on this question PHP Library for Keeping your site index by Google, Bing, etc, I was curious to look at StackOverFlow's sitemap. This returned a 404 error which I am guessing is just a protected page by determining if your are a Index Bot or simply doesnt exists.

This then lead me to look at the robots.txt for StackOverFlow. I was surprised to see the comment "Yahoo bot is evil" along with a couple other Indexing bots (Spinn3r and KSCrawler) . I am unfamilular with Spinn3r and KSCrawler but my question is, why are these bots (particular Yahoo) considered as evil? Surely any and all indexing of any Search Engine is a good thing?

0 投票
2 回答
835 浏览

ruby-on-rails - Rails 表单保护问题,隐藏字段

我有一个实时 Rails 网站,我想要一个包含很多字段的表单。我已经为每个字段设置了验证并允许格式化。我已经对其进行了相当多的测试,它似乎可以捕捉到我扔给它的任何东西。我认为它几乎可以上线了,但我想四倍检查是否还有其他我应该做的事情来保护它。我的网站访问者数量很少,但我希望它尽可能安全。如果可以的话,我想避免使用验证码。我读过您可以使用隐藏字段来保护表单免受机器人攻击。人们是否推荐这个而不是使用验证码,甚至使用验证码?

我的表格真的很标准:

任何建议或代码示例将不胜感激。

0 投票
2 回答
1201 浏览

python - Appengine Apps 与 Google bot 网络爬虫

我构建了一个 appengine 网络应用程序 cricket.hover.in。该网络应用程序包含大约 15k 链接的网址,但即使在我发布很长时间后,谷歌也没有任何页面被索引。

我的根站点 hover.in 上的任何基本链接位置都在几分钟内被编入索引。但我把根站点的同一个链接主页放在了很久以前。但它没有用。

任何人都可以分析,如果 cricket.hover.in 有任何问题,或者机器人是否有任何谷歌应用引擎问题

实际使用谷歌网站管理员工具的实验室应用程序测试了网址,返回很好,html 很清晰。

但是当在以下网址测试相同的(cricket.hover.in)时,它显示出不同的失败结果

www.dnsqueries.com/en/googlebot_simulator.php

www.smart-it-consulting.com/internet/google/googlebot-spoofer/

但如果我在上面的 url 测试我的一些 php 或 word press 链接,结果很好。


对不起,我的错误,请原谅我误导。域是 cricket.trak.in/,它来自基本 URL trak.in。经过长时间的调查,没有找到解决问题的方法。请检查此域。

提交站点地图 3 天前它几乎总共提交了 22k uri,但到今天的索引计数仍然为 0。

其次,cricket.trak.in 本身不会返回 15k uri,我的意思是,如果被抓取,网站总共会返回大约 15k uri。

0 投票
2 回答
733 浏览

php - 是否可以编写一个接受电子邮件的 php 脚本(如电子邮件机器人)

我想编写一个可以接收电子邮件的脚本,然后根据该电子邮件中的说明做一些事情,但我不知道从哪里开始。这可以用PHP吗?

0 投票
1 回答
974 浏览

asp.net-mvc - ASP.NET 的恶意爬虫拦截器

我刚刚偶然发现了Bad Behavior——一个 PHP 插件,它承诺通过阻止垃圾邮件和恶意爬虫访问网站来检测垃圾邮件和恶意爬虫。

ASP.NET 和 ASP.NET MVC 是否存在类似的东西?

我有兴趣完全阻止对该网站的访问,而不是在垃圾邮件发布后检测垃圾邮件。

编辑:我对检测网站访问模式的解决方案特别感兴趣——这些解决方案可以防止屏幕抓取整个网站,或者至少使它对罪犯来说是一个非常缓慢的过程,因为机器人必须充当常规角色用户点击频率和点击模式(深度优先连续访问的 100 个链接清楚地表明有人正在抓取该网站)。

我所说的恶意爬虫主要是指构建其他站点的重复副本的机器人,以及试图在站点上找到一些可提交的表单并提交他们的废话的垃圾邮件机器人。

0 投票
1 回答
2938 浏览

apache - 使用 htaccess apache 重定向所有机器人

我应该使用什么 .htaccess rewriterule 来检测已知的机器人,例如大型机器人:

altavista、谷歌、必应、雅虎

我知道我可以检查他们的 ips 或主机,但有更好的方法吗?

0 投票
1 回答
368 浏览

java - Java Shoutcast 查询

我有一个 Java IRC 机器人,我想查询一个直播服务器并返回基本信息(歌曲播放等)。有人可以指导我正确的方向吗?谢谢你。

0 投票
2 回答
543 浏览

asp.net - 允许搜索引擎抓取用户名

我有一个网站,用户可以在其中输入他们的个人资料并用密码保护某些详细信息。我希望搜索引擎抓取配置文件的“未受保护”部分(因用户而异)。类似于在 facebook 中输入用户的姓名,他们的 Facebook 个人资料会出现在搜索结果中。我是否需要做任何特别的事情来确保机器人不会爬取受密码保护的部分,但仍会爬取(始终公开的)用户名?我不确定这是否是一个问题,但我想更新我的 robots.txt 以允许这样做。

另外,我如何确保机器人可以使用用户名(以安全的方式)?我是否必须使用名称列表创建一个单独的目录,还是有更好的方法?

感谢您的任何建议