问题标签 [data-collection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
22 浏览

sql-server-2008-r2 - SSMS 数据收集报告陷入时间扭曲

出城时,我更改了笔记本电脑上的时区以反映我当时的位置,并且碰巧在 VPN 连接到我的办公室网络时在 SSMS 中运行了几个数据收集报告。

尽管我回来后又将时区改回来,但随后执行的报告仍然显示我访问过的时区的时间。这只发生在笔记本电脑上;如果我在远程访问存储性能数据的服务器时运行相同的报告,则时间是正确的。我也没有注意到笔记本电脑上的任何其他应用程序也受到了类似的影响。

有谁知道如何纠正这个?

0 投票
0 回答
659 浏览

json - How to handle HTTP error 503 when making API calls to process JSON files in R with the jsonlite package?

I'm having problems using the JSONlite package in R to collect Dota2 match data using the Steam API. I am not an experienced developer and really appreciate any help. Thanks!

I have created a script in R. When I check the API call using a web browser it correctly returns the JSON contents, but when I execute the very same API call in R (either in a for loop or as a single call) using the fromJSON() function, I get the following errors:

This is the R script I have created to collect multiple JSON responses using the fromJSON command and jsonlite:

0 投票
1 回答
66 浏览

linux - Py 2.7 arch:如何使用多个服务器持久化 HTTP/S,而不是收集数据以多次发送?

这是一个复杂的问题,所以我会尽力解释清楚,不要提供太多不必要的细节。

去年我为工作开发了一个 python 脚本。它获取基本系统数据并将其发送到 HTTP/S 服务器,如果用户选择,该服务器可以发回命令。这是去年的一次大实验,看看什么有效,什么无效。测试公司内部的不同需求等。但现在我对我们需要什么有了非常深刻的理解。所以我开始了我的版本 2 之旅。

这个新版本的目的是在减少系统/CPU 负载和带宽的同时保持功能。在开发出这个 Python 脚本之后,剩下的工作将在 HTTP/S 服务器上完成。我的问题专门针对客户端,即 Python 脚本。我使用的是 Python 2.7.x,最常见的是基于 Debian 的系统。

v1 脚本抓取系统数据,读取包含要发送数据的服务器的配置文件,使用线程发送到每个服务器。(仍然在那些线程中)每个服务器可以返回 1 个或多个命令,然后也通过它们自己的线程处理这些命令。该脚本通过 crontab 每分钟运行一次。您可以让 5 台或更多服务器分别发送 10 条命令,并且脚本仍然可以顺利、有效地执行所有操作,并且无需花费很长时间来完成服务器发出的命令。

在 v2 脚本中,我正在寻求进行以下必要的更改:

  • 将作为系统服务运行。因此,代码不是每分钟由 cron 运行,而是每隔几秒循环一次。

  • 循环需要每次通过循环收集一次数据,然后将其发送到每个 Web 服务器(在配置文件中定义)

  • 我想要持久的 HTTP/S 连接以优化性能和带宽。

  • 我不想每次都通过每个 HTTP/S 服务器的循环来收集数据。我只想通过驱动服务的主循环每次迭代收集一次数据,然后将该数据发送到管理已建立的 HTTP/S 持久连接的线程。

我的问题就在这里。如何在它们各自的线程中获得持久连接并在只收集一次数据的同时将数据获取到这些线程?

httplib 是否重用 TCP 连接?我看到可以以这种方式完成持久连接(谢谢Corey Goldberg):

数据收集需要在这个循环中进行。但是我需要在多个线程同时与不同的服务器通信时发生这种情况,并且不想浪费资源来多次获取数据。鉴于我对 Python 的了解相对有限,我只是不明白这怎么可能。

基本上,正如我现在所看到的,需要有一个循环来驱动其线程内的 HTTP/S。然后我需要某种循环来收集我的数据并准备好进入 HTTP/S 连接。但是如何以这种方式在第二个循环中获取第一个循环?这就像我需要数据收集循环内的 HTTP/S 持久连接循环,但我还需要 HTTP/S 循环内的数据收集循环。

我想探索任何可以完成的纯 2.7.x pythonic 方式。由于各种原因,取决于外部实用程序可能会出现问题。该脚本完成后,将部署到 150 多个 linux 系统,出错越少越好。

感谢您的帮助和考虑!

0 投票
0 回答
35 浏览

ios - 收集有关 OSX 和 iOS 应用程序的数据

我正在尝试收集有关在 OSX 和 iOS 设备上打开和使用(在前台和后台)的所有应用程序的信息。我将使用这些数据来收集信息,例如—— 1. 正在使用的应用程序 2. 时间(t),应用程序的活动使用持续时间 3. 使用应用程序执行的操作 4. 在后台运行的应用程序

例如,在 OSX 上,Microsoft Outlook 应用程序在 10:00 启动。积极使用直到 10:15。进程在 10:15 发送到后台(运行)。过程在 10.30 回到前台/焦点。如果可能,会在 10:30 发送操作,例如电子邮件。同样,网络浏览器活动。访问的页面和使用的应用程序。

作为一个黑客周项目,我试图从不同的应用程序(最初只是在 Mac 上)收集上述数据并用于一些分析。我认为这是可能的,但想听听其他人/专家如何做到这一点。

非常感谢帮助。谢谢你。

0 投票
1 回答
79 浏览

java - 网址未在网页中返回正确的 html(对于我的 Java 爬虫)

我想从网页下载一些图像,因为我正在编写一个爬虫。我为此页面测试了几个爬虫,但没有一个能按我的意愿工作。

第一步,我收集了 770+ 个相机型号的链接(parent_url),然后我想在每个链接中收集图像(child_urls)。但是,该页面的组织方式与child_urls返回的 html 相同parent_url

这是我收集相机链接的代码:

使用此代码,我收集链接

我怎么解决这个问题?我很想听听根据相机型号对图像进行分类的其他页面。(除了 Flickr)

编辑: 例如在 java 中,以下两个链接给出了相同的 html。

https://www.dpreview.com/sample-galleries?category=cameras

https://www.dpreview.com/sample-galleries/2653563139/nikon-d1-review-samples-one

0 投票
0 回答
642 浏览

android - 我想以编程方式(自动)通过蓝牙将文件从 android 发送到树莓派

我在 android 设备上有一个 csv 文件,该 csv 文件每 10 秒更新一次,我想通过蓝牙将该文件从该设备发送到树莓派。Raspberry Pi 从该设备手动接收文件,但我希望在 10 秒后自动从设备收集该 csv 文件并存储在 Pi 上。我怎样才能做到这一点?如果有人可以帮助我,那么这对我很有帮助。

0 投票
2 回答
716 浏览

maps - 嵌入传单数据收集或geojson.io地图以形成

我试图找出从非技术用户那里收集单个映射多边形数据的最轻量级的方法。这是最终的愿景:用户填写网络表单,绘制形状,然后他们可以轻松地将格式化数据通过电子邮件发送给我或我的同事(我知道——电子邮件的想法可能会让读者感到恐惧,但我正在很多我无法控制的限制性参数。电子邮件是一个已知数量。)。

有没有办法去除 geojson.io 之类的东西,甚至只是一个带有 leaflet.draw 的传单地图,然后将结果坐标传递给可以通过电子邮件发送的文本?

同样,我的需求是基本的。一次将映射一个形状。视觉选项和控制越少越好。我的听众在很大程度上是非技术性的。

看起来这个用户试图问同样的问题,但没有走远。

谢谢!

0 投票
1 回答
106 浏览

mongodb - 带有 DBRef 字段的 MongoDB 分片键?

我有一个包含根文档的 DBRefs 的集合。我有数以万计的文档链接到我的数据集合中的单个根文档。这就是为什么我选择不嵌套根文档的数据。

我认为对我的集合进行分片的最佳方法是使用字段tsroot._id作为复合键。

那可能吗?如果没有,最好的解决方案是什么?只需将该字段复制root._id到数据集合中的普通字段中?

0 投票
1 回答
4540 浏览

debugging - 调试和跟踪 Hotjar 数据

最近,我们公司开始使用 Hotjar 来收集使用数据。由于这是我第一次使用该服务,所以我犯了一些错误,这使我寻找一种调试方法。看了官方文档、论坛、stackoverflow,一无所获。

我必须做什么/修改才能在 Hotjar 中启用调试?

0 投票
2 回答
94 浏览

java - 将多个项目添加到链接列表

我正在创建一个链接列表的实现,并且在使用 add 方法时遇到了问题。在用几个条目对其进行测试后,我的size()方法总是返回 1。我做错了什么。