问题标签 [data-scrubbing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
0 回答
64 浏览

events - 使用擦洗插件更改 CodeMirror 中的数字值

我在使用 CodeMirror 时遇到问题。我正在尝试添加实时号码清理,类似于 Brett Victor 的示例,以及可汗学院的能力,但我没有太多运气。

我无法发布链接,但我发现这个库可以完成工作(由 GitHub 上的用户 FWeinb 制作),它可以完成我正在寻找的东西,但我注意到虽然数字似乎已更改,只要我enter在 CodeMirror 中执行类似按下的操作,变量的值就会重置为原来的值。

我正在使用 ReactJS,但我不太确定如何解决这个问题。this.replaceRange每次更改内容时,我都会通过调用来尝试一些可笑的事情,但必须有更好的方法。这是我的代码片段。这不是我想要的理想状态,只是为了测试目的:

所以我知道目前洗涤器编辑了这个:<span class="cm-number"></span>,但实际的基础数据没有用洗涤器更新,也没有持久化。任何人都可以阐明我应该在这里做什么,以便编辑器中的变量值随着洗涤器实时更新,并且该值在新操作时仍然存在?

0 投票
1 回答
762 浏览

javascript - phantomjs 总是返回在特定网站上找不到的页面

我试图从这个网站获得体育比赛结果

http://www.oddsportal.com

但是我尝试从这个网站上的任何地址我最终都找不到页面

虽然它在我自己的浏览器中打开

这是一个示例代码

我不知道他们是如何阻止 phantom js 的,我也不知道从哪里开始.....

幻影 js 标头中有什么东西会提醒他们吗?

我将不胜感激有关如何解决此问题的任何建议或建议

这是该网站的输出

0 投票
2 回答
58 浏览

r - R根据列值编辑数据框

假设我有一个大约 1M 行的表格,格式如下:

在支付年份大于或等于审查年份的情况下,将每个观测值设置为 NA 的有效方法是什么?特别是,我希望表格看起来像这样:

0 投票
1 回答
74 浏览

r - 从电子邮件主题行中提取特定患者 ID

我希望从电子邮件主题行中提取患者 ID。我正在使用两个数据框:一个具有来自 SQL 数据库的输出(包含电子邮件主题行),另一个具有患者信息(医院名称和患者 ID)。

我想使用患者 ID 并从第一个数据帧中删除主题行,然后返回与所述患者关联的医院。不幸的是,我无法提供对数据的访问。

0 投票
1 回答
1741 浏览

sql-server - SQL Server 遍历表并清理敏感数据

我有一个表,其中包含需要清理的表和字段的名称。

样品表

我需要遍历这个表并清理每个表中的字段名称。我还想对清理算法提出任何建议。

谢谢!

0 投票
1 回答
2951 浏览

python - Pandas:如何将数据框列中的“时间戳”值从对象/字符串转换为时间戳?

我的时间戳在我的列的数据框中如下所示,但它位于“对象”中。我想将其转换为“时间戳”。如何将我的数据框列中的所有值转换为时间戳?

我尝试了以下引用此 stackoverflow帖子的代码,但它给了我错误:

以下是错误:

0 投票
2 回答
5866 浏览

excel - 如何在 Excel 中清理数据,特别是删除给定范围之外的极端异常值?

我有数千个从模型输出的数据单元格,我的结果格式如下:单元格 ID 是列标题,每一行是一个时间步长,每个单元格在数百个时间步长上的结果都打印在电子表格中。我想分析某些百分位数内的数据。我已经确定了感兴趣的百分位阈值的值是什么,但我没有找到关于如何...

a) 对于我正在使用的工作表,删除所有超出我感兴趣范围的值

或者

b)将感兴趣范围内的值从工作表中拉出并放入单独的一个以进行进一步分析

这些值是带两位小数的数字。

我需要在单独的步骤中清理数据,然后对其进行分析。例如,即使在删除时间序列中的极端最大值和最小值之后,我仍然希望查看整个时间序列,但将异常值删除或更改为空值。如何从该数据矩阵中选择或简单地删除所有异常值,而保留其余数据?

0 投票
1 回答
82 浏览

php - 具有多个重定向的表单提交

我正在尝试从网站获取数据,一旦您提交表单,它就会重定向到加载页面,该页面设置为自动重定向到最终结果页面。问题是爬虫只获取加载页面的数据,并没有完全进入我真正需要的最终结果页面。有人可以告诉我如何实现吗?如果不可能,那么有什么替代方法可以做到这一点?

0 投票
1 回答
836 浏览

python-3.x - 使用 pandas 对重复的列进行分组并求和相应的列值

我正在预处理 apache 服务器日志数据。我有 3 列 ID、TIME 和 BYTES。例子:

ID 时间字节

1 13:00 10

2 13:02 30

3 13:03 40

4 13:02 50

5 13:03 70

我想实现这样的目标:

ID 时间字节

1 13:00 10

2 13:02 80

3 13:03 110

0 投票
2 回答
115 浏览

r - Shiny App R - 擦洗和错误

我正在 R 中构建一个闪亮的应用程序,我试图清除有关用户选择的口袋妖怪的网络信息,但是在尝试使用 read_html() 时我一直遇到“错误:SLL 证书问题”的问题

用户界面:

然后是服务器:

我正在使用这个数据集:https ://gist.github.com/armgilles/194bcff35001e7eb53a2a8b441e8b2c6

我不知道这个错误来自哪里?