问题标签 [data-scrubbing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
1126 浏览

c# - 如何加载动态生成的网页?

我正在尝试加载网页http://www.artstation.com/artist/nicotine,所以我可以清理页面,不幸的是该页面似乎是通过代码生成的,所以我正在寻找的标签不可用.

使用以下内容加载它不起作用,因为它只加载源 javascript,而不是它生成的内容:

如何将页面加载到浏览器中显示的页面,以便我可以清理它的标签?

0 投票
2 回答
70 浏览

asp.net - 如何理解在线数据库以将查询结果输入电子表格?

非常简单,我正在查看这个医生数据库的网络查询:http ://www.aahivm.org/ReferralLink/exec/frmAdvSearch.aspx

例如,当我按州搜索 HIV 初级保健医生时,我会得到一份医生名单。我一直在努力避免手动复制和粘贴所有结果。

我在 Excel 或 Google 表格中看到的示例似乎是基于更新到新位置的 URL。而对于这个站点,我坚持使用静态 URL。

这是一个完全新手的问题,但我很好奇是否有一种方法可以将搜索结果转换为另一种格式,例如电子表格,而无需剪切和粘贴?我应该寻找源中的哪些信息?还有哪些我没有正确搜索的选项?它是一个 ASP .NET 数据库的问题吗?我错过了什么?

谢谢你的帮助!

0 投票
3 回答
52097 浏览

python - python 相当于 R 的 NA 是什么?

python 相当于 R 的 NA 是什么?

更具体地说:R 有 NaN、NA、NULL、Inf 和 -Inf。NA 通常在缺少数据时使用。python的等价物是什么?

numpy 和 pandas 等库如何处理缺失值?

scikit-learn 如何处理缺失值?

python 2.7和python 3有什么不同吗?

0 投票
1 回答
57 浏览

javascript - Javascript 从网站(会员网站)提取数据

我还没有为此编写任何代码,因为我正试图首先弄清楚如何去做。我有一个工作网站,我必须使用密码登录。它是我们用来管理车道的网站(我目前在交通部门工作),信息显示为多个点击的弹出窗口。

我需要做的是从最后一个选项卡上的字段中提取数据(它是显示我们负载总量的字段)该页面是一个 .aspx 页面,所以可以擦掉这个吗?有没有其他方法不涉及服务?我正在尝试做自己的分析程序,但对从哪里开始检索数据感到非常困惑。

任何有用的提示或链接表示赞赏。

0 投票
1 回答
85 浏览

sql - 一次将表旋转 4 行

我试图弄清楚如何通过以下方式在 SQL Server 中透视表:

在此处输入图像描述

每次值为“PEAK”时,我希望它从新行开始。基本上它看起来像这样。

col1 col2 col3 col4 119 KH ON PEAK 4 K1 ON PEAK 356 KH OFF PEAK 38 K1 ... ...

0 投票
2 回答
146 浏览

perl - Perl在解析时“擦洗”字符

我正在解析一个文件 - 我做的第一件事是将前三个字段连接起来并将它们添加到每个记录中。然后我想擦洗任何冒号、单引号、双引号或反斜杠的数据。以下是我的做法,但有没有办法让我使用 $line 变量来做这件事会更有效?

0 投票
1 回答
1543 浏览

cassandra - Cassandra 3 Repair 永远不会完成

我们有一个在数据中心中有 6 个节点的集群(每个 3 个节点)。我们正在一个节点上开始修复,不久之后我们可以在日志中找到类似的内容:

事后似乎什么都没有发生了。我们几天没有中断维修,但仍然没有任何反应。我们还在两个不同的集群上进行了尝试,结果相同。

在网上搜索后,我们偶然发现了https://support.datastax.com/hc/en-us/articles/205256895--Validation-failed-when-running-a-nodetool-repair。它说我们应该运行“nodetool scrub”,如果它没有帮助“sstablescrub”。

我们尝试了 nodetool 擦洗,但修复仍然无法正常工作。我们现在开始了 sstablescrub,但它似乎需要很长时间。它在 100% 的情况下仅使用一个 cpu,并且数据和索引文件正在增长,但它现在运行了一天多,文件现在只有 1.2GB 的大小。

“sstablescrub”这么慢是正常的吗?

集群已经运行了一段时间,我们错过了 GCGraceSeconds 进行修复。这会导致无法修复吗?

我们目前不知道如何进行维修,希望有人能提供帮助。

0 投票
1 回答
356 浏览

sql - Azure ML 上的 SQL 更新不起作用?

我正在尝试清理 Azure ML 中的一些数据。我有一个 Apply SQL Transform 块,其中包含以下代码:

它是一个数字列。当我可视化输出时,有 0 行和 0 列。进入块有 225k 行。有人知道发生了什么吗?

0 投票
2 回答
260 浏览

r - 通过匹配和替换匿名化段落变量中的名称

我正在分析一所学校的学生成绩单数据库。我的数据集包含大约 3000 条记录,其结构类似于下面的示例。每一次观察都是一位老师对一位学生的评价。每个观察都包含一个三句话的叙述性评论。

为了分享我的分析结果,我想从评论中删除提及学生姓名的内容,并将其替换为其他姓名。在一个理想的世界中,为了可重复性,我还想分享一个匿名版本的数据库。

学生姓名的不一致使用(名字与昵称与全名)以及学生姓名的非结构化使用对于像我这样的业余爱好者来说非常棘手。我解决这个问题的尝试是将评论作为语料库中的文档处理,并使用编写一个使用tm::removeWords但对我不起作用的函数。提前致谢!

示例数据(此处表的输入)

所需数据

注意

四个月前,我问了这个问题的一个版本,没有得到答复。我认为这将有助于展示我的解决方案,但也许该tm软件包并未广泛使用。所以这里是另一个镜头。

0 投票
1 回答
227 浏览

excel - EXCEL 中的数据清理

对于这里的所有计算机专家来说,这可能是一件容易的事!我想在 EXCEL 文本框中提取一串字符。数据集有点乱,有空格、字符和其他我不需要的文本。例如:

我需要从“ABC ABCABC12345D1”中取出 ABC12345D1

但这只是我必须提取的标识符之一。我希望有一个公式可以拖动到列的其余部分。

因此,ABCABC12345D1 由

_ _ _ 前三个字符是一个ID

_ _ _ _ _ 第二部分是位置标签

_ _ 最少的过去是它是打开还是关闭(如果无法提取它,我可以活下去。

现在我尝试取正确的 8 或 10 个字符,并取出所有空间,但有没有更清晰的方法来提取这些数据?