问题标签 [datadog]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
metrics - 如何按样本大小(在 Datadog 中)加权我的费率?
所以我有一个持续的事件指标。它们要么被标记为成功要么失败。所以我有3个数字;失败,完成,总计。这很容易(在 Datadog 中)使用堆积条形图来说明,如下所示:
所以黑暗的部分是失败。通过查看 y 标度和标度的红色虚线,这很容易告诉人们该速率是否是一个问题并且很重要。这意味着我的故障率超过 60%,至少在一段时间内(10 分钟?),并且在此期间有足够的事件来考虑故障率异常。
因此,我正在寻找某种公式,其开头为:失败除以总数(给我一个介于 0 和 1 之间的分数),然后以某种方式再次将其乘以总数和我认为的一些阈值意味着总数足够高我得到一个自动警报。
为了获得额外的荣誉,这是我试图开始工作的实际 Datadog 指标:
(sum:event{status:fail}.rollup(sum, 300) / sum:event{}.rollup(sum, 300))
我正在观看 15 分钟,并提示分数高于 0.75。但我不确定 sum、count、avg、rollup 或 count。当事件总数低到足以证明高故障率并不能证明有任何问题时,ofc 会在夜间向我发送邮件。
monitoring - 如何从 datadog 或 newrelic 获取 Intranet 正常运行时间(可用性报告)?
我们正在使用 DataDog 和 NewRelic 来监控少数支持 DevOps 的系统的性能,我们需要提供一些正常运行时间报告,例如:
- 上个月上涨 99.5%(x 分钟停机时间)
- 去年增长 99.1%(x 分钟停机时间)
虽然我们确实在 DataDog 上配置了 URL 监控,但我们无法找到计算正常运行时间的方法(仅在服务关闭时收到警报)。
也使用了 NewRelic,但似乎他们有一个 URL 监视服务,该服务仅适用于可公开访问的站点,因此对于 9/10 案例无用。
python - Datadog dogstream 自定义解析器错误
我想通过dogstream添加我的自定义日志解析器,但重启datadog代理时出现异常:
解析器代码:
有谁知道为什么会发生这样的事情?有任何想法吗?
java - 将服务器名称添加到 Datadog 的指标
我将dropwizard 指标与metrics-datadog 一起使用。
创建报告如下:
但是 datadog 中没有主机(服务器名称)参数。如何为指标添加主机(服务器名称)以在 datadog 控制面板中过滤它们?默认数据狗代理的指标具有服务器名称属性。
java - 春季启动指标+数据狗
有谁知道如何将 Spring 引导指标与 datadog 集成?
Datadog是面向 IT 的云规模监控服务。
它允许用户使用大量图表和图形轻松地可视化他们的数据。
我有一个 Spring Boot 应用程序,它使用dropwizard指标来填充有关我用 . 注释的所有方法的大量信息@Timed
。
另一方面,我在 heroku 中部署我的应用程序,所以我无法安装 Datadog 代理。
我想知道是否有一种方法可以自动将 spring boot metric system 报告与 datadog 集成。
ruby-on-rails - DataDog 自定义指标未使用 ROR 显示图表
我们正在尝试将 DataDog 与我们的 Ruby On Rails 应用程序集成。我们的 ROR 应用程序将每秒不断地添加用户、更新用户和删除用户。
我已经集成了 Datadog 来监控号码。通过 Datadog 提供的图表添加、更新和删除的用户。
我使用 Ubuntu Aws 实例的命令安装了 datadog 代理。
我获得了 14 天的免费试用期。
我为dogstatd-ruby gem遵循了这个文档:https ://github.com/DataDog/dogstatsd-ruby
之后,我在我的 ruby 项目中编写了代码,如下所示:
在这里,我在指标资源管理器中看不到“custom.users.updated”和“custom.users.added”图表。
如果有任何 1 帮助我在 Datadog 帐户中为这两个指标设置图表,我将不胜感激。如果我在这里遗漏了什么,请告诉我。
amazon-ec2 - 无法从 docker 容器内部访问 datadog 代理
我在 Amazon linux ec2 上安装了 dd-agent。如果我直接在主机上运行我的 python 脚本(我使用名为“dogstatsd-python”的 SDK),所有指标都可以发送到 datadog(我登录到 datadoghq.com 并在那里看到了指标)。脚本类似于:
但是,我启动了一个 docker 容器并从容器内部运行相同的脚本:
'172.14.0.1'是主机的IP,用命令提取
根本没有向datadog发送任何指标......
我猜这可能是由于一些配置问题,如“地址绑定”。也许我在主机上安装的 dd-agent 只能从“localhost”接收指标。
希望有人可以帮助我。先感谢您。
plugins - 我们可以编写一个自定义检查来使用 Data Dog 监控进程吗
我想编写一个 DataDog Check 来监控一些进程,如 Puma、delayed_job 等,我可以看到有现成的插件可用于 nagios 和 Sensu,但不适用于 DataDog,但我可以在 datadog 中为此服务编写自己的检查/插件吗? 或者我可以将现有的 Nagios/sensu 插件与 DataDog 一起使用吗?如果是,我应该如何进行?
datadog - How can I combine datadog io metrics in order to identify disk bottlenecks?
I am trying to create an alert in DataDog that would alert us when disk performance slows down our machines.
As a business requirement I would say that if the IO is almost saturated (over 90%) for more than 30 minutes, the alert should be triggered.
Here are the current set of metrics that are recorded:
sys.cpu.iowait
system.io.avg_q_sz
system.io.avg_rq_sz
system.io.await
system.io.r_await
system.io.r_s
system.io.rkb_s
system.io.rrqm_s
system.io.svctm
system.io.util
system.io.w_await
system.io.w_s
system.io.wkb_s
system.io.wrqm_s
It is possible to use any formulas to combine these, including SUM and AVG values.