问题标签 [data-collection]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
business-intelligence - 如何在敏锐io中捕获非事件驱动的数据
当事件驱动时,在 Keen.io 中捕获数据非常简单。(用户登录,客户购买的东西,...)。这在文档中得到了很好的解释。
但是,当我想了解我的应用程序在过去给定时间的状态时,最好的方法是什么?
例如:去年这个时候有多少有效许可证?
我们的第一个想法是每小时运行一次 cronjob,从 te DB 中获取这些数据,并将它们存储在自定义集合中。这是正确的方法,还是有更好的解决方案?
plc - 无论如何从PLC模块上传数据?
目前是否有一个网关可以让 thingsboard 从 PLC 模块中检索数据?
elasticsearch - fluentd是否满足这个需求
目前我正在开发一个使用来自 ElasticSearch 的数据的仪表板的项目,Elasticsearch 正在通过 python 脚本提供数据,这些脚本以 json、数据或 csv 文件的形式从 Web 应用程序收集这些信息。这些脚本每天通过 cron 运行。我的问题是我是否可以使用 fluentd 来替换这些脚本。那么 Fluentd 是否可以收集信息(检测它们是否是新的或是否导致其中一些文件没有时间戳)并将它们输出到 ElasticSearch?
javascript - 如何使用 Node.js 请求模块处理对 Github API 的多页请求?
我正在尝试访问在 Github 上拥有超过 5000 颗星的所有存储库。我编写了这个爬虫来使用 Node.js(它在 Cloud9 环境中运行):
但结果并不是所有的存储库,只是所有存储库的第一页。如何在请求模块中使用分页?我试图在文档中找到示例,但它们并不那么清楚。还是我需要用另一个库或另一种语言来做这个?
谢谢!
r - 如何使用 R 进行网页抓取
我是网络抓取的初学者,并试图学习如何实施自动化过程来从网络提交搜索词中收集数据。
我正在处理的具体问题如下:
鉴于 stackoverflow 网页https://stackoverflow.com/我提交了对“网络抓取”一词的搜索,并希望在列表中收集所有问题链接和每个问题的内容。
是否有可能刮掉这些结果?
我的计划是创建一个术语列表:
提交每个学期的研究并收集问题标题和问题内容。
当然,应该对每一页结果重复该过程。
不幸的是,对于网络抓取来说相对较新,我不知道该怎么做。我已经下载了一些包来抓取网络(rvest、RCurl、XML、RCrawler)。
谢谢你的帮助
python - Python API 数据收集社交媒体 API 和地理定位 IE Twitter
- 任何人都可以在这里帮助我处理一些用于数据收集的 Python3 逻辑,或者提出任何更简单的有效方法。我知道您可以将数据源添加到 Tableau 和其他程序等程序中,但这并不是我真正要做的,除非您确定它具有轻松内置的功能。
我将如何处理用 python 编写的数据收集程序的逻辑,以收集所有使用 say 主题标签 #sample 的一系列推文,然后我从哪里获取它们的位置 --- GeoJson?我假设..
对于那些有更多使用 python3 收集数据的经验的人,我可以添加逻辑,允许我使用 twitter api 应用程序或 py tweety 进行收集。我只是想知道我是否可以让每 10 个收集一个触发次要动作,这不会对快速移动的流的性能征税。
用例场景:例如,像 Kenny Chesney 音乐会中所有推文的流或数据集合,我知道它是 long1 lat1 和 long2 lat2 之间的 1 平方英里,在竞技场周围形成一个正方形,可以延伸到我想要的一英里要以艰难的方式流式传输有关奥运会的所有推文,我会收集它而不是获取提要。有人可以给我关于使用 python 和 twitter 收集的一二,以及地理定位对于那些帖子为 geolocation=on 的用户的效果如何。对于在同一日期时间 +- 1 小时使用#samplekenny 主题标签发推文的每个人,我想继续收集和提醒自己或将名称添加到 txt 文件或某些触发器。
任何接近这个的东西,即使它有点像这个问题,来自不同的人,我会很感激,我以前做过这个,不是用python,我真的很喜欢python,但我不能说我知道它。
我想我已经接近了,我想找到最不费力的方式来做到这一点,比如说事件,然后如果有一种总体上不那么费力的方式,除了用更严格的过滤器等来限制你的收集组。只需要文本和编码符号。和 tweetId
facebook - 收集来自一个国家/地区的人/团体的随机 Facebook 样本
我的目标是从某个国家/地区收集 Facebook 帐户(至少是个人资料,但收集页面/群组也很好)的随机样本(不是那么大 - 几千就足够了)。社会研究需要样本。
我在 SO 上阅读了官方 API 和类似的主题,并发现使用官方 API 是不可能实现的,因为无法按国家甚至位置搜索帐户。
我也尝试 google 一些第三方服务并找到https://searchisback.com/,但它只有在我登录 Facebook 时才有效,否则我会看到错误。并且此搜索的结果似乎取决于用户,而不是随机的,因此对研究无效。
同样,我试图寻找某种私有 API,类似于Instagram Private API。但是通过 github 搜索并没有产生任何切实的结果。
所以,我看到的唯一方法 - 随机选择 ID 并检查帐户是否来自所需的国家(如果他们指定了他们的位置),直到我收集到我的数千个样本。这里的问题是,从某个国家获得帐户的可能性非常低,而 facebook 有速率限制,因此收集样本可能需要几个月的时间。
最后,问题是——我错过了什么吗?也许有一些适合我的任务的第三方服务或库?
mongodb - kaa数据收集不检索数据mongodb
我在 ubuntu 16.04 上手动安装了 kaa iot 服务器,并使用数据收集示例来测试它是如何工作的。代码运行没有任何错误,但是当我在下面运行这些命令时没有任何反应:
我什至注释掉了mongodb.conf的bind_ip并重新启动了 mongodb、zookeeper 和 kaa-node 服务,但没有任何改变。我还重新生成了 SDK 并重建了项目,但这也无济于事。
最后这是 kaa 日志:
感谢您帮助解决此问题...
database - Streamsets Data Collector CDC 可以读取和写入多个表吗?
我有一个 MSSQL 数据库,其结构通过 Postgres 数据库复制。我在 MSSQL 中启用了 CDC,并在 StreamSets Data Collector 中使用了 SQL Server CDC 客户端来监听该数据库表中的更改。
但我找不到在 Postgres 中写入相同表的方法。
例如,我在 MSSQL 中有 3 个表:tableA、tableB、tableC。我在 Postgres 中有相同的表。我将数据插入到 tableA 和 tableC 中。我希望通过 Postgres 复制这些更改。
在 StreamSets DC 中,为了写入 Postgres,我使用 JDBC Producer 并在我指定的表名称字段中:${record:attributes('jdbc.tables')}。
执行此操作,将从 tableA_CT、tableB_CT、tableC_CT 中读取数据。启用 CDC 选项时由 MSSQL 创建的表。所以我将在 ${record:attribute('jdbc.tables')} 中得到这些表名。
有没有办法在与 MSSQL 相同的表中写入 Postgres?
post - 处理来自移动应用程序的流数据(通过 POST)
在某些时候,可能会创建一个专用的物联网设备和应用程序,但我现在正在使用 iPhone 上的一个应用程序,它不能满足要求但仍然有用。
该应用程序可以通过 POST 流式传输其数据。我设置了一个 php 文件来捕获数据并将其写入 csv 文件。
- 数据是具有几列数据的时间序列,每秒以 POST 形式发送。总时间约为10分钟。
- 数据需要持久化到数据库,而不是写入 csv
我不确定的...
- 由于这只是在测试概念验证,因此可能要等到以后才成为问题,但是新连接插入的高频率会很昂贵吗?假设每个 POST 都需要一个新连接。目前我无法验证设备,所以我假设我可以为所有已知设备使用本地帐户。
- 有没有比使用抓取数据的 php 脚本运行 Web 服务器更好的方法来处理数据?我正在考虑使用 Kafka + 一个数据库连接器来持久化数据,但我无法配置移动应用程序以了解将数据发送到服务器需要做什么。沟通不是双向的。否则,我对 POST 请求的经验是典型的 Web 表单输入
任何人都可以提供一些指导吗?