问题标签 [data-scrubbing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
2489 浏览

validation - 单元测试数据?

我们的软件管理来自各种来源的大量数据馈送:实时复制的数据库、自动通过 FTP 传输的文件、数据库存储过程的计划运行以缓存来自链接服务器的数据快照以及许多其他获取数据的方法。

我们需要验证和验证这些数据:

  • 甚至发生了进口
  • 数据是否合理(空值、行数等)
  • 数据是否与其他值一致(也许我们有多个类似数据的来源)
  • 是不是数据没了,导入需要手动提示

在很多方面,这就像单元测试:有很多类型的检查要做,只需在列表中添加一个新的检查,然后重新运行每一类测试以响应特定事件。已经有很好的 GUI 用于运行测试,甚至可以安排它们。

这是一个好方法吗?是否有更好的、类似通用的数据验证模式?

我们是一家 .NET 商店,Windows 工作流 (WF) 会是更好更灵活的解决方案吗?

0 投票
3 回答
40738 浏览

sql - 匿名客户数据以进行开发或测试

我需要使用真实客户信息(姓名、地址、电话号码等)获取生产数据并将其移动到开发环境中,但我想删除任何真实客户信息的表象。

这个问题的一些答案可以帮助我生成新的测试数据,但是如何替换生产数据中的这些列,但保留其他相关列?

假设我有一张包含 10000 个假名的表。我应该使用 SQL 更新进行交叉联接吗?或者做类似的事情

0 投票
8 回答
628 浏览

php - 从 PHP 字符串中删除字符

我正在接受来自提要的字符串以显示在屏幕上,该字符串可能包含也可能不包含我想过滤掉的一些垃圾。我根本不想过滤普通符号。

我要删除的值如下所示:�</p>

我只想删除这个。相关技术是PHP。

建议表示赞赏。

0 投票
2 回答
2121 浏览

javascript - 使用 Javascript 获取文章的标题/作者/日期信息

我正在尝试构建一个书签,它将获取当前页面/文章的作者和日期信息,以供参考。我知道我可以使用 document.title 和 document.URL 获取页面标题和 url,但是当涉及到其他信息时,我是空白的。有任何想法吗?

0 投票
2 回答
2041 浏览

mysql - 从 Mysql 清理电子邮件地址

我有一个充满用户信息的 MySQL 数据库。我想把它交给承包商做一些分析,但我不想暴露我所有的用户信息。我现在最关心的是电子邮件地址。我想保留电子邮件地址域,但匿名地址。理想情况下,我想在 SQL 脚本中使用它。

所以我想把'email'列中的每一项都从'myAddress@gmail.com'变成'xxxx@gmail.com'和'anotherAddress@hotmail.com'到'xxxx@hotmail.com' . 有任何想法吗?

0 投票
2 回答
1041 浏览

mongodb - 数据仓库中的分段步骤?

人们通常如何在数据仓库中执行暂存步骤?

我必须做类似的任务,我不确定使用 NoSQL 数据库是否是数据集成的好选择,以及执行数据清理和清理是否容易和高效

有人在这方面做过一些工作吗?

请告诉我

为一个通用问题道歉,但没有找到比 SO 更好的地方来提出这样的问题

谢谢

0 投票
2 回答
785 浏览

nlp - 用于电子邮件清理的开源项目从非结构化源生成结构化数据?

不知道从哪里开始,所以希望你们能解决我的问题。我有一个项目,将在其中搜索电子邮件以查找特定的单词/模式并以结构化的方式存储。用Trip it完成的事情。

文章指出,他们开发了一个 DataMapper

DataMapper 负责接收发送至计划 [at] tripit.com 的入站电子邮件,并将它们从您在邮件阅读器中看到的半结构化格式转换为高度结构化的 XML 文档。

有一条评论还指出

如果您想自己构建它,阅读一些关于 Wrappers 和 Wrapper Induction 的内容可能会有所帮助

我在 Google 上搜索并阅读了有关包装器归纳的信息,但它的定义过于宽泛,并没有帮助我理解如何解决此类问题。

是否有一些开源项目可以做类似的事情?

0 投票
1 回答
1712 浏览

sql-server-2005 - SQL Server 查询返回表字段中空内容的百分比

我希望从在 SQL Server 2005 上开发的遗留系统中清除迁移项目中的数据,但首要任务是找出哪些列并未真正使用。

我的方法背后的一般逻辑是识别大部分留空的列(即,对于该列,该表中的大多数或所有行都包含空值)。这将作为存储过程执行,其中理想的输出类似于:

这里有个问题:有些表有超过 100 列,所以真正的关键是该过程循环遍历给定表的列,所以我不必键入一长串列名来运行查询。关于如何做到这一点的任何帮助都会很棒,

谢谢。

0 投票
2 回答
577 浏览

php - Facebook Graph API 广泛的数据抓取。客户端还是服务器端?

我正在使用 PHP、HTML 和 JavaScript 构建一个应用程序,它访问用户 Facebook 数据并对返回的信息进行一些分析。它需要向 Graph API 发出大约 15 到 30 个请求,具体取决于用户在其个人资料中拥有多少数据。

我首先确保所有数据都可以访问,并且抓取的等待时间不会太长。我已经使用了 Facebook 文档中身份验证页面中简单的服务器端流程 (PHP) 示例,现在已经获得了一堆我正在优化的 PHP 脚本。目前我只是加载页面并等待较长的 PHP 脚本执行。不理想。

我已经意识到,从前端的角度来看,在用户对 FB 应用程序进行身份验证后,理想情况下不会刷新页面,并且用户不应该在页面不断加载时等待(即等待长时间执行PHP 脚本)。

因此我的问题是:我应该使用我已经编写过的相同 PHP 脚本并(在用户身份验证之后)使用 AJAX 请求关闭脚本(然后使用 AJAX 轮询完成)还是应该重写服务器端逻辑在 JavaScript 中并使用 Facebook JavaScript SDK 和 AJAX 完成所有工作?

我的观点是让应用程序依赖于客户端发出大量的 http 请求,这对我来说似乎很不稳定......另外,我宁愿不重写我已经完成的所有事情!=)

为长信息道歉。试图尽可能明确。

在此先感谢,gfte

0 投票
1 回答
852 浏览

web-crawler - 另一个 url 上的 PHP 调用按钮(数据抓取)

我在谷歌上搜索了一下,但找不到任何有用的东西。

假设我有一个远程页面,假设是 google.com,我想在该页面上输入表单,从下拉菜单中选择特定项目,单击按钮,然后从提供的页面中提取数据。

我想自动化这个任务。

在 c# 中,我知道我可以创建一个浏览器对象并使用它来调用特定页面上的按钮,甚至从下拉菜单中选择数据、填写表格等。

可以使用 php 完成类似的任务吗?如何完成?

感谢您的时间。

安德烈