问题标签 [data-collection]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
468 浏览

data-collection - 一个作业的多个数据收集器,无需在流集中复制记录

我有一个由多个文件组成的目录,并且在多个数据收集器之间共享。我有一份工作来处理这些文件并将其放入目的地。因为记录很大,我想在多个数据收集器中运行这项工作。但是当我尝试时,我在目的地得到了重复的条目。有没有办法在不复制记录的情况下实现它。谢谢

0 投票
1 回答
46 浏览

math - 自定义权重排名机制

我有以下我想解决的问题。我有一个元素“Ei”(元素 i)的列表,每个元素都有几个参数。参数是相似的,并且每个都分配有权重“Wx”(参数 x 的权重)。

重量可以根据喜好改变。我需要根据参数及其权重对元素进行排名/优先级。

您是否熟悉类似系统的任何方法/技术/解决方案?

谢谢

0 投票
1 回答
49 浏览

sql - 我需要将办公室网络外的计算机连接到 Intranet 的方法

这就是场景。

我在一个实验室工作,我们有几台机器在收集数据,它们不属于办公室 [IT] 批准网络(这意味着它们是现成的,没有管理限制,它们不符合公司政策)。现在它已经到了产生大量数据的地步,通过 USB 驱动器将所有内容传输到网络不再是一个好的选择。我们希望通过几个步骤来解决这个问题。

第 1 步:可能每天或每周一次自动将数据文件复制到我们内部网中可访问的驱动器。

第 2 步:将我们从单个文件收集数据的方式更改为关系数据库,以便我们可以从中查询报告。[长期 - 用于解决步骤 1 的拓扑应该可以解决步骤 2]

我们拥有的 IT 支持非常有限,这就是为什么我需要向他们提供一个几乎“熟透”的选项来解决我们的问题。

我在想我会用路由器连接所有实验室计算机,然后通过单独的网卡将路由器连接到 IT 批准的服务器。这样一来,我们就可以将“实验室网络”与办公网络分开。

我很感激你能给我的任何建议。

-克里斯蒂安

0 投票
0 回答
253 浏览

mongodb - 为什么将数据从 API 保存到 CSV 比将数据上传到 MongoDB 数据库更快

我的问题围绕着理解我用来从美国人口普查局 API 收集贸易数据的以下两个程序(特别是性能和代码逻辑)。我已经收集了数据,但我最终编写了两种不同的方法来请求和保存与我的问题相关的数据。

我最后的问题的总结在底部。

第一种方式:npm request 和 mongodb 保存数据

我使用 tiny-async-pool(设置要执行的某个函数的并发性)限制我的过程,不要尝试一次请求太多或接收超时或用查询使我的数据库过载。简单地说,我面临的瓶颈是数据库,因为 API 请求返回相当快(取决于主体大小 1-15 秒),但要保存每个数组项(返回数据是嵌套数组,有时从几百项到超过每个数组中最多有 10 个值的十万个项目)到它自己的 mongodb 文档的范围从 100 毫秒到 700 毫秒。为了节省潜在错误的时间并且不重做相同的查询,我还在进行查询之前检查了我的数据库以查看查询是否已经完成。

第二种方式:npm 请求并将数据保存到 csv

我对请求和并发使用了与第一种方法相同的方法,但是我将每个查询保存到自己的 csv 文件中。如果出现错误并且没有重做成功的查询,我还检查了文件是否已经存在,如果存在则跳过该查询。这种方法没有错误,我运行了它,几个小时后就可以保存所有数据。写入 csv 非常快,比使用 mongodb 快得多。

最后总结和问题

我的最终目标是以最简单的方式获取数据。我使用 javascript 是因为我在那里学习了 api 请求和异步操作,尽管我将使用 python 和 pandas 进行大部分数据分析。我第一次尝试数据库方法主要是因为我认为这是正确的方法,并且我想提高我的数据库 CRUD 技能。经过无数小时的重构代码和尝试新技术后,我仍然无法让它正常工作。我采用了 csv 方法,它 a)要编写的代码少得多,b)检查少,c)更快,d)更可靠。

我最后的问题是:

  • 为什么 csv 方法比数据库方法更好?您会使用任何反驳论点或不同的方法吗?
  • 在 API 和数据库操作方面,您如何处理应用程序中的瓶颈和并发?您的技术在生产环境中与个人用例是否有所不同(在我的情况下,我只需要数据并且等待几个小时就可以了)?
  • 您会为此数据收集过程使用不同的编程语言或不同的包/模块吗?
0 投票
1 回答
121 浏览

hyperlink - 如何将 ID 和密码(唯一链接)添加到使用 ibm spss 数据收集专业人员/作者创建的调查链接中?

我与 ibm spss 数据收集专家/作者一起创建了一项调查。调查链接如下:http ://survey.xxxyyy.com/mrIWeb/index.htm?I.Project=TestSurvey 我想在调查链接中添加 ID 和密码以进行个性化。

我的意思是新链接应该是:http ://survey.xxxyyy.com/mrIWeb/index.htm?I.Project=TestSurvey&Id=xxxxxxxxx&PWD=xxxxxxxxx

我怎样才能做到这一点?

提前感谢您的所有帮助。

0 投票
0 回答
48 浏览

data-collection - 为我在 Stack Overflow 中关于游戏化的硕士论文收集数据

我正在为我的硕士论文收集数据,该论文旨在研究游戏化如何激发知识共享,以 Stack Overflow 为例。问卷很短,大约需要您 5 分钟的时间。

此问卷是匿名的,因此不必担心泄露您的信息。您是否有兴趣回答一些与 Stack Overflow 中的参与和游戏化相关的问题?我附上了下面的调查表,希望能得到您的帮助。

https://surveyhero.com/c/e94ee2db

0 投票
1 回答
129 浏览

anylogic - 在 AnyLogic 中计算司机工资

在 Anylogic 中,我试图根据模型运行时收集的一些统计数据来计算平均司机工资。我已经弄清楚如何收集所需的统计数据。但是我想知道如何创建一个函数,在模拟结束时给出以下方程的输出。
工资方程为:(距离系数)(距离)+(上车系数)(上车次数)+(下车系数)*(下车次数)

0 投票
0 回答
119 浏览

web-scraping - 如果亚马逊不通过 API 提供这些信息,Jungle Scout 和 ASINspector 等服务如何提供亚马逊评论/评级数据?

我正在尝试编写一个工具来查找给定亚马逊产品的平均评论分数和评级数量。

不幸的是,亚马逊似乎有意将这两个东西从他们的 API 中排除,这一直是许多论坛帖子的主题。

从技术上讲,您可以抓取产品页面的 HTML 并获取它,但亚马逊会很快注意到您正在运行脚本并开始提供验证码,从而进一步表明他们不希望您收集它。

但在所有这些情况下,第三方服务如何收集和提供这些数据?他们是否违反了亚马逊的 TOS 并通过不正当的方式收集它,或者是否有某种我没有看到的合法方法?

0 投票
1 回答
2136 浏览

pycharm - PyCharm:为什么它会收集我的个人数据

刚刚安装了 PyCharm 社区,该社区在 Apache 2.0 许可下应该是免费的,但在我同意将我的个人数据(包括电话号码、IP 地址、税号、物理地址等)分享给 Jetbrains 和关联公司以及第三方以用于不同目的之前,我无法启动该软件包括“推广和营销我们的产品”在内的目的——我不同意这些条款,也没有通过这一点。

为什么它需要这些个人信息?它实际上不是免费或开放的吗?刚刚再次打开网站,可以确认它说“免费,打开”

0 投票
1 回答
219 浏览

excel - VBA通过更改字符串名称设置字符串值

您好我正在尝试创建将从 Excel 表中收集数据的宏。我创建具有相似名称并以数字结尾的字符串。请问有没有办法循环这个字符串?此代码不起作用,但会解释我想要做什么。