问题标签 [bots]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
seo - 如何让 googlebot 获得正确的 GEOIPed 内容?
好的。这个问题让我很头疼。我不知道是否有明确的答案。
我们有一个网站,我们称之为mycompany.com。这是一个基于英国的网站,包含基于英国的内容。谷歌知道这一点,我们已经对其进行了大量的搜索引擎优化。一切都很好。
除了,我们即将重新推出我的公司,全球品牌,所以我们现在需要 mycompany.com/uk、mycompany.com/us 和 mycompany.com/au,以获取各个国家/地区的本地内容。我们正在使用 GEOIP,因此如果来自美国的人加载 mycompany.com,他们会被重定向到 mycompany.com/us 等。
如果某人不在这三个国家(美国、澳大利亚或英国)之一,他们将获得英国网站。
这一切都很好,但我们不想失去我们在 mycompany.com 上拥有的大量 Google 果汁!更糟糕的是,谷歌机器人似乎 100% 位于美国,因此美国网站(这几乎是三个网站中最不重要的一个)似乎是主要网站。
我们曾考虑过检测机器人并提供英国内容,但谷歌似乎可能会因此而对我们进行打击。
有没有其他人遇到过这种情况,并有解决方案?
web-crawler - 如何设置仅允许站点默认页面的robot.txt
假设我在http://example.com上有一个网站。我真的很想让机器人看到主页,但是任何其他页面都需要阻止,因为它对蜘蛛毫无意义。换句话说
http://example.com和http://example.com/应该被允许,但 http://example.com/anything和http://example.com/someendpoint.aspx应该被阻止。
此外,如果我可以允许某些查询字符串传递到主页,那就太好了: http ://example.com?okparam=true
security - 当机器人攻击时!
除了 CAPTCHA 之外,还有哪些流行的垃圾邮件预防方法?
email - 解析可能是 html 或各种奇怪编码的原始电子邮件并将其转换为纯文本,例如 pine 可能会显示它的方式
我想这样做的原因是为了便于解析通过电子邮件发送给机器人的指令,majordomo 可能会解析订阅和取消订阅等命令。事实证明,有很多疯狂的格式和事情需要处理,比如引用文本、区分标题和正文等。
执行此操作的 perl 模块将是理想的,但欢迎使用任何语言的解决方案。
automation - 防止自动化
我们的下一个项目应该是一个基于 MS Windows 的游戏(用 C# 编写,带有一个 winform GUI 和一个集成的 DirectX 显示控件),供想要将奖品赠送给最佳玩家的客户。这个项目打算运行几年,包括锦标赛、阶梯、锦标赛、玩家对玩家行动等等。
这里的一个主要问题是作弊,因为如果玩家能够 - 例如 - 让定制的机器人为他玩游戏(更多地是在策略决策方面,而不是在玩很多小时方面),他将会受益匪浅.
所以我的问题是:我们有哪些技术可能性来检测机器人活动?我们当然可以跟踪播放的小时数,分析检测异常的策略等等,但就这个问题而言,我更感兴趣的是了解详细信息,例如
- 如何检测另一个应用程序是否定期截屏?
- 如何检测另一个应用程序是否扫描我们的进程内存?
- 有什么好方法可以确定用户输入(鼠标移动、键盘输入)是否是人工生成的而不是自动化的?
- 是否可以检测另一个应用程序是否请求有关我们应用程序中控件的信息(控件的位置等)?
- 还有哪些其他方法可以让作弊者收集有关当前游戏状态的信息,将这些信息提供给机器人并将确定的操作发送回客户端?
非常感谢您的反馈!
search-engine - 是否有包含索引机器人的搜索引擎,可以通过为机器人提供某些属性来组成特殊目录?
我们的应用程序 (C#/.NET) 需要大量查询来搜索。谷歌每天 50,000 的政策是不够的。我们需要能够通过我们设置的特定规则(例如国家域)抓取互联网网站并收集 URL、文本、关键字、网站名称并创建我们自己的内部目录的东西,这样我们就不会局限于任何大型外部搜索引擎像谷歌或雅虎。
我们可以使用任何免费的开源解决方案将其安装在我们的服务器上吗?
重新发明轮子没有意义。
php - 如何阻止机器人在 PHP 中增加我的文件下载计数器?
当用户单击链接以在我的网站上下载文件时,他们会转到此 PHP 文件,该文件会增加该文件的下载计数器,然后 header() 将它们重定向到实际文件。但是,我怀疑机器人正在跟踪下载链接,因此下载次数不准确。
- 我如何让机器人知道他们不应该点击链接?
- 有没有办法检测大多数机器人?
- 有没有更好的方法来计算文件的下载次数?
apache - 基于 User-Agent 的 Apache 流量节流
我们在 Linux 上的 WebSphere 6.0 前面运行 Apache(IBM HTTP Server 6.0.2.0)。我们从不同 IP 地址的特定用户代理处获得过多流量。我们不想阻止 User-Agent 或 IP 地址,但想稍微减慢它们的速度。
对我们来说最好的方案是使用开箱即用的 Apache 配置选项来解决问题。
任何想法或建议将不胜感激。
谢谢!
php - 我需要在论坛上发布什么 $_POST[]?
我是论坛的管理员。早些时候我们有 phpbb 2.0,我做了一个可以写到论坛的机器人。现在,我们已将论坛升级到 phpbb 3.0,但我无法让我的机器人再向论坛写信。
我一直在寻找解决方案,但现在我没有想法。因此,如果有人有建议,那就太好了。
顺便说一句,我使用 CURL 和 php 来制作这个机器人。
bot 的使用:用户登录外部网站报告他们在网上玩过的足球比赛的结果。然后,机器人会自动在论坛上发帖。
所以基本上我需要知道我需要发送什么 $_POST[] 。
bots - 开发一个机器人用作与 java 的 gtalk 联系人
我想开发一个可以从 gtalk 聊天的机器人,并且我有一些 java 经验。
我不想将机器人用于 IA 目的。
我想使用机器人来模拟像 xterm 这样的控制台。
编辑:
好的:问题是“关于如何开发它的任何线索?”
谢谢你的遮阳篷。