问题标签 [data-scrubbing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
zfs - 没有 ECC 的 ZFS,校验和将如何工作?
假设我已经阅读了很多关于带/不带 ECC 的 ZFS 的内容,网上有很多意见。我仍然怀疑我无法通过阅读可用的文档来澄清自己。
假设我有两个镜像磁盘和 ZFS(我的系统中没有 ECC)让我们看看会出现什么问题:
1) 一个驱动器被静默损坏 -> 另一个驱动器没问题 ZFS 恢复
2) 两个驱动器都正常,但在擦洗期间,单个事件翻转位会翻转内存单元,因此 ZFS 可能认为两个磁盘之一上的集群已损坏,此时,ZFS 可能会损坏一个良好的集群。
现在我的问题是关于案例 2),为什么在 ZFS 发现错误的集群(由于非 ECC 或由于磁盘上的实际问题)之后没有第二次机会/试验?我的意思是磁盘上的错误集群不会消失,而 RAM 中的坏内存单元是本地的,ZFS 可以尝试使用其他 RAM 内存单元再次读取磁盘。此外,可能是 RAM 实际上没问题,而位翻转只是暂时的翻转(由于宇宙 μ 子),因此即使使用相同的存储单元再次尝试也可以解决问题。这种技术是否存在和/或可能?是否有意义?
python - 当您不知道确切位置时,如何在 DF 中对字符串的一部分进行切片?
我正在为切片而苦苦挣扎。我认为这通常很容易并且我理解它,但是当涉及到以下情况时,我的想法不起作用。
情况:在我的 DF 列之一中,我想在所有行中删除一些有时会出现有时不会出现的字符串。
问题看起来像这样:
1.我不知道这个字符串开始的确切位置(在每一行中它可能是不同的
2.这个字符串不同,取决于每一行,但是,它总是从同一个结构开始 - 比如说:“¯main_”
3.通常在“¯main_”之后,有一些数字(它不同)但是长度总是相同的(9个数字)
4.我已经在拆分之后,我有大约 40 列(每列都有类似的问题)。这就是为什么我正在寻找一些更有效的方法来解决它,然后拆分,生成大约 40 列然后删除它们。
5.有时在这个带有“¯main_”的字符串之后,我想在同一列中留下一些额外的字符串。
例子:
寻找这样的结果:
到目前为止我准备的最佳解决方案:
但:
1.它不能正常工作
2.我知道 test.find() 在找不到字符时会返回 -1。我不知道如何摆脱它 - 写一个循环?我相信存在一些更好(更有效)的解决方案。然而,经过几个小时的寻找,我决定寻求帮助。
google-sheets - 通过订阅从网站导入数据
我从中导入数据的网站现在是基于订阅的,我有订阅但 HTML 导入功能不提取数据。
我更新了 URL,因为它改变了,当我这样做时,它返回一个错误。
无法获取网址:https ://www.footballoutsiders.com/premium/defense-vs-receivers?year=2018&offense_defense=offense
java - java - 如何以随机方式擦洗Java中的出生日期,这会导致当我输入相同的原始出生日期时生成相同的随机数
我正在尝试进行数据清理,我正在尝试清理出生日期字段,但我希望它在某种程度上保持一致,即为相同的输入日期生成相同的随机数或出生日期。请帮助我解决这个问题。
我试过这个随机生成代码,但即使我提供相同的输入,它也会生成不同的代码。我希望随机输出保持一致。
neo4j - 清洁数据导入 Neo4J 数据库
我是 Neo4j 和数据分析新手。我正在寻找编程方式来格式化从 Active Directory 收集的数据,以准备将其导入 Neo4j。现在,我正在使用 PowerBI 和 DAX Studios 以我需要的方式清理数据,但这并不高效,并且仍然需要大量手动干预。我也在尝试使用 OpenRefine 来做这件事,但我想看看专家们是怎么想的。
我的终极愿景是能够获取原始文件并将其上传到 Web 前端,使用一些黑魔法过程将数据格式化为我需要的样子,然后将其上传到新的 Neo4j 后端进行分析。一旦数据在后端,我就可以走了。我有一个收集器进程来进入环境并收集原始信息。这只是从 A 点到 B 点的旅程。感谢您提供任何帮助。谢谢!
web-scraping - 任何人都可以建议数据科学项目
我刚刚完成了数据科学主题,我想在数据科学中进行一个迷你项目,任何人都可以建议我一个项目。我在谷歌搜索了很多,但我没有找到任何项目可以推荐一个项目
java - 如何从网页Java中的多个URL中获取特定的URL
我是第一次做数据抓取。我的任务是从有多个链接的网页获取特定的 URL(帮助,单击此处等)。如何获取特定网址并忽略随机链接?在此链接中,我只想让美国证券交易委员会通过对豁免发行框架的更改而忽略其他链接。我如何在 Java 中做到这一点?我能够提取所有 URL,但不确定如何获取特定 URL。下面是我的代码
html - 如何使用 SAS 从网页中抓取数据
问题陈述:我需要使用 SAS 程序从 Web 获取数据并将其放入 SAS 数据集。
运行良好:我能够通过 SAS 获取目标网页的内容。
不工作(需要帮助):我无法通过 SAS 处理页面的源内容(如下所示)。我需要在源内容中找到“类别”,如果找到,则获取该行的所有值(NOV、OCT、SEP、AUG、JUL)。同样,我需要在源内容中找到“会议板”,如果找到,则获取该行的所有值(96.1,101.4,101.3,86.3,91.7)。源内容结构应始终保持不变。预期输出附加为 png 图像。如果有人知道并帮助我如何使用 SAS 程序解决这种情况,那将是一个很好的学习和帮助。
我试过这样的事情:
网页源内容:
SAS 数据集的输出应该是这样的: