问题标签 [bots]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
7 回答
21140 浏览

asp.net - 如何以编程方式检测机器人

我们有一种情况,我们记录访问和页面点击的访问者,而机器人正在堵塞我们的数据库。我们不能使用验证码或其他类似的技术,因为这是在我们甚至要求人工输入之前,基本上我们正在记录页面点击,我们只想记录人类的页面点击。

那里有已知的机器人 IP 列表吗?检查已知的机器人用户代理是否有效?

0 投票
2 回答
395 浏览

java - 防止机器人多次查询我的数据库

我正在构建一个应用程序,它是一种注册表。想想字典:您查找一个单词,如果找到该单词,它会返回一些内容。现在,该注册表将存储有关公司的有价值信息,有些人可能会想要获得完整的列表。我的应用程序使用响应 WS 的 EJB 3.0。

所以我在考虑每个 IP 地址每天最多允许 10 个查询。将 IP 地址和计数器存储在每晚都会被脚本清空的桌子上。

这样做是个好主意/做法吗?如果是,如何获取 EJB 端的 IP 地址?有没有更好的方法来防止某些东西从我的数据库中获取所有数据?我也有关于 CAPTCHA 的问题,但我认为这对用户来说是一种痛苦,有时,即使是真人也很难阅读。

希望一切都清楚,因为我不是英语...

谢谢阿兰

0 投票
4 回答
268 浏览

security - 检测 Web 应用程序中的可疑行为 - 寻找什么?

我想问一下我们当中积极主动(或偏执)的人:您在寻找什么,以及如何寻找?

我主要考虑可以以编程方式观察的事情,而不是手动检查日志。

例如:

  • 手动/自动黑客尝试。
  • 数据略读。
  • 机器人注册(已逃避验证码等)。
  • 其他不受欢迎的行为。

只是想知道大多数人会认为什么是实用和有效的。

预防性的东西(如用户输入卫生)当然是至关重要的,但在这个问题的情况下,我对检测潜在威胁更感兴趣。在这种情况下,我对防盗警报器感兴趣,而不是锁。

我正在谈论的这种事情的一个例子存在于 SO 上。如果您在短时间内对问题进行过多修改,它会显示验证码以确保您不是机器人。

0 投票
2 回答
324 浏览

seo - 如何防止我的应用程序将机器人请求作为视图进行跟踪

这是关于编写 Web 应用程序的一般问题。

我有一个计算文章页面浏览量的应用程序以及我为我的客户安装的 url 短脚本。问题是,每当机器人访问该网站时,它们往往会夸大页面浏览量。

有没有人知道如何从这些应用程序的视图计数中消除机器人视图?

0 投票
1 回答
708 浏览

.htaccess - Htaccess/robots.txt 允许搜索机器人探索主域而不是其他域上的目录

好的,我知道标题没有任何意义,所以在这里我试图详细解释它。

我正在使用一个主机,它为我的域提供空间,并让我在其上“添加”其他域。所以假设我有一个域 A,我添加了一个域 B。基本上,我的主机给了我一个 public_html,我可以在其中放置显示有人访问网站 A 的内容。但是,当我添加域 B 时,它可以让我放置B 的内容,在那个 public_html 的 INSIDE 中,这样网站 B.com 也可以通过访问 A.com/siteB 来访问......这一切都很好,除了谷歌已经开始索引 B.com 以及 A.com/ siteB,我对它索引 B.com 没问题,但我想阻止它索引 A.com/siteB,这样当人们搜索 B 时,它最终不会显示 A.com/siteB。

有任何想法吗?如果问题仍然不清楚,请告诉我。

0 投票
3 回答
578 浏览

php - 保持 xmphp bot 始终在线

我在 PHP 中创建了一个简单的 xmpp bot,它连接到 google talk 服务器。我基本上修改了 cli_longrun 示例。当我在浏览器中运行脚本时,即使我关闭了正在运行脚本的选项卡,机器人也会在线并保持在线一段时间(因为它只是一个无限循环,用于监听流上的事件)。但一段时间后,机器人会脱机。

问题是如何让机器人始终在线。我能想到的一种方法是运行一个 cron 来断开之前的 cron 并开始一个新会话。但是有更好的方法吗?

0 投票
2 回答
129 浏览

screen-scraping - 网站内容爬取

我们在 IIS 6 Windows 2003 上托管了一个企业列表目录。我们的竞争对手抓取并窃取了我们的内容和客户。

我们已经尝试使用蜜罐 URL 和日志解析进行 IP 阻止,但没有取得多大成功。有没有人知道我可以在我的网络服务器前面运行的网络设备或代理服务器以尽量减少这个问题?

高度赞赏所有建议。

0 投票
1 回答
1244 浏览

php - 此访问者是机器人还是用户?PHP

我正在使用谷歌分析(或任何其他)可以为我提供的特殊功能进行自己的访问者跟踪,因为它是定制的。我在脚本接近尾声时调用了这个函数,但很快就遇到了我们的客户,他们遇到了数千个被机器人调用的页面(我假设是谷歌),我的表在一段时间内填满了大约 1,000,000 条无用和欺骗性的记录月。

大多数人使用的方法是他们在页面底部使用 Javascript,机器人不操作 javascript,所以这是一个简单的修复——但我正在寻找 PHP 解决方案。

我做的最后一件事是使用 PHP get_browser

http://us2.php.net/manual/en/function.get-browser.php

并检查crawler方面。这没有用。

我看过这篇文章: 阻止脚本编写者每秒数百次抨击您的网站

但主要的解决方案是做一些类似于 SO 的事情,它会提出一个验证码。我的意思不是阻止机器人——我希望页面被抓取。我只是不想在访客在那里时发送他们的跟踪数据。

我现在切换到 Javascript 解决方案,执行 AJAX 请求,因为我们的用户变得烦躁和不准确的统计数据。

0 投票
5 回答
68716 浏览

python - 我如何在 python 中编写一个简单的 IRC 机器人?

我需要帮助编写一个基本的 IRC 机器人,它只连接到一个频道.. 有人能解释一下吗?我已经设法让它连接到 IRC 服务器,但我无法加入频道并登录。到目前为止我的代码是:

任何帮助将不胜感激。

0 投票
1 回答
2223 浏览

ruby - 好的 ruby​​ irc 客户端库

我想写一个irc bot。(请回复一个好的 irc 客户端库而不是 bot 框架)。

__

为什么投反对票?我只是想知道哪个库相当不错并且维护得很好,因为有很多 ruby​​ irc 库。