问题标签 [data-cleaning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
vba - 在 Excel 中的一列数据中查找和删除某些字符
我已将一些调试信息复制并粘贴到 Excel 工作表中。
但是,它在一列的某些单元格中包含一些“奇怪”的字符,否则应该只包含整数。使用 VBA 消除此类字符的最简单方法是什么?下面的列表中显示了一个示例:
我想将该文件用作另一个应用程序中的数据源。提前致谢。
python - Normalising book titles - Python
I have a list of books titles:
- "The Hobbit: 70th Anniversary Edition"
- "The Hobbit"
- "The Hobbit (Illustrated/Collector Edition)[There and Back Again]"
- "The Hobbit: or, There and Back Again"
- "The Hobbit: Gift Pack"
and so on...
I thought that if I normalised the titles somehow, it would be easier to implement an automated way to know what book each edition is referring to.
or
But obviously they are not working as intended, as titles can contain special characters and editions can basically have very different title layouts.
Help would be very much appreciated! Thanks :)
c# - 个人人口统计信息的模糊数据匹配
假设我有一个数据库,其中包含以下数据元素:
- PersonID(无意义的代理自动编号)
- 名
- 中间初始
- 姓
- 名称后缀
- 出生日期
- AlternateID(如 SSN、军事 ID 等)
我从各种格式中获得了大量的数据馈送,其中包含您能想到的这些信息的每一种合理变化。一些例子是:
- 全名,出生日期
- 全名,最后 4 个 SSN
- 第一,最后,出生日期
当这些数据进来时,我需要写一些东西来匹配它。我不需要或期望获得超过 80% 的匹配率。自动匹配后,我会将不确定的匹配显示在网页上,供某人手动匹配。
一些复杂性是:
- 一些数据匹配比其他的更好,我想为这些匹配分配权重。例如,如果 SSN 完全匹配但名称因某人使用中间名而关闭,那么与名称完全匹配但 SSN 关闭的情况相比,我想为该匹配分配更高的置信度值。
- 名称匹配有一些困难。John Doe Jr 与 John Doe II 相同,但与 John Doe Sr. 不同,如果我得到 John Doe 而没有其他信息,我需要确保系统不会选择一个,因为无法确定选谁。
- 名字匹配真的很难。你有 Bob/Robert、John/Jon/Jonathon、Tom/Thomas 等。
- 仅仅因为我有一个带有 FullName+DOB 的提要,并不意味着每条记录都填写了 DOB 字段。我不想因为不匹配的 DOB 杀死匹配的分数而错过一个链接。如果缺少某个字段,我想将其从可用于匹配的元素中排除。
- 如果有人手动匹配,我希望他们的匹配影响所有未来的匹配。因此,如果我们再次获得相同的准确数据,下次没有理由不自动匹配它。
我已经看到 SSIS 具有模糊匹配,但我们目前不使用 SSIS,而且我发现它非常笨拙,几乎不可能进行版本控制,所以它不是我的首选工具。但如果这是最好的,请告诉我。否则,是否有任何(最好是免费的,最好是基于 .NET 或T-SQL的)工具/库/实用程序/技术用于解决此类问题?
matlab - 查看 0 到 -1 之间的数据时出现问题
我正在尝试使用 Matlab 编写一个清理数据的程序。该程序接受数据的最大值和最小值,并丢弃小于最小值或大于最大值的数据。清洁部分似乎有一个小问题。这种情况仅在被检查变量的最小范围为 0 时发生。如果是这种情况,出于某种原因,程序不会丢弃介于 0 和 -1 之间的数据点。我一直在尝试解决此问题一段时间,并注意到这是发生这种情况的唯一情况,如果您尝试运行 SQL 查询选择 < 0 的数据,它将遗漏 0 到 - 1,与发生在我身上的错误一样有效。想知道是否有人会认识到这一点并知道它可能是什么。
mysql - 如何在 Matlab 中处理 MySQL 关闭?
大家好——
我正在编写一个程序,该程序在 Matlab 上从一个数据库到另一个数据库解析和清理大量数据,从 MySQL 进行查询。这将连续运行,因为新数据每分钟进入第一个数据库,被清理,并在下一个数据点进入之前放入干净的数据库。我想知道在这个过程中,我如何解释两件事.. .
每三个晚上 MySQL 都会关闭以进行备份。我希望我的程序在发生这种情况时暂停,并在它备份时恢复。我四处寻找解决方案,但似乎找不到解决方案。
允许用户杀死程序。我已经把它缩小到要么考虑 ctrl+c 杀死,要么创建一个 GUI 来做到这一点。大家觉得哪个策略更好呢?
提前感谢您在此问题上的时间和帮助。
mysql - 从 MySQL 日期字段中阻止“0000-00-00”
我有一个数据库,其中旧代码喜欢在 Date 和 DateTime 列中插入“0000-00-00”而不是实际日期。所以我有以下两个问题:
- 我可以在数据库级别做些什么来阻止这个吗?我知道我可以将一列设置为非空,但这似乎并没有阻止这些零值。
- 检测日期字段中现有零值的最佳方法是什么?我有大约一百个表,每个表有 2-3 个日期列,我不想单独查询它们。
跟进:
默认值已设置为 null。很久以前,默认值为“0000-00-00”。一些代码仍然明确放置“0000-00-00”。我宁愿强制该代码抛出错误,以便我可以隔离并删除它。
coldfusion - Coldfusion 9中的清洁字符串/输入
我最近一直在使用Coldfusion 9(主要是 PHP 的背景),我正在挠头,试图弄清楚如何“清理/清理”用户提交的输入/字符串。
我想让它成为 HTMLSAFE,消除任何 javascript 或 SQL 查询注入,通常。我希望我忽略了 CF9 已经附带的某种功能。
有人可以指出我正确的方向吗?
regex - 从文本中提取 URL 并使用字典将自由文本中的 Facebook 翻译到 facebook.com
我需要从文本调查回复中提取网站。该算法应大致匹配。例如,“患者喜欢我”或“患者喜欢我”应该被识别为“患者喜欢我.org”。
我已经包含了来自下面数据集的响应。我开始编写一些脚本来执行此操作,但意识到我没有使用可以接受额外过滤器和字典的健壮设计模式。一个简单的正则表达式不起作用,因为匹配太精确或太笼统而无法捕获足够数量的匹配。在一个完美的世界里,我还可以使用aspell之类的东西来纠正拼写错误或使用levenstein算法来匹配单词。
提前感谢您为我指明任何数据清理算法、框架或资源的方向。
“在线社区”的全部优点在于它们在很大程度上是匿名的。但是:无障碍园艺论坛,Davesgarden.com;Patientlikeme.com;当然还有脸书。
像我一样的病人 社会女士 Facebook Thisisms
yaoo webmd.co
MS 治疗 options.com
parsing - 从不干净的数据中提取数据结构的工具
我在数据库字段中有非结构化的基因不干净的数据。有一些常见的结构在数据中是一致的
即:
我想知道是否有一个工具(最好是在 Java 中)可以提取学习/理解这些数据结构、解析文件并转换为我可以运行验证检查的 Map 或对象?
我知道 Antlr,但理解这更适合树结构,不是独立的数据位(我错了吗?)
有没有人对整个问题有任何建议?
php - 谁能推荐一个好的 PHP HTML 清理器?
非常不言自明,我想允许来自用户的 html 显示在网页上。
理想情况下,它应该允许诸如<p><strong><em><a><ul><li>
同时禁止 id、类、、、、<script>
内<style>
联 javascript 等元素。确保 HTML 的有效性是一大优势。HTML(相对于 XHTML,或者至少可以选择)也会很好。
当然,我可以使用 MarkDown 之类的东西,但如果可能的话,我更喜欢不需要用户学习新技能的系统。
抱歉,如果这个问题是重复的,我确实先检查过,但什么也没找到。一个快速的谷歌显然有一些结果,但我只有开发人员说他们很好(即安全)。
首选免费/开源解决方案。