问题标签 [data-scrubbing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
geocode - 有哪些图书馆/服务(付费或免费)可以清理和验证地址?
清理地址的服务或库需要可从自定义 .NET 包装服务或库中调用。没有 UI 要求来显示地图或跟踪物理包裹到邮政地址的交付。
https://www.usps.com/business/webtools.htm不作为选项,因为使用条款仅限于支持包裹物理交付的应用程序。
似乎 google 和 Bing 都有使用条款,将应用程序开发的使用限制为在 UI 中显示地图。
这是一个使用 google JavaScript 库进行地理编码地址查找的示例。它似乎运作良好。不幸的是,我不能使用它,但正在寻找几乎同样有效的东西。
c# - 您如何清理列表以仅匹配字符串?
我正在尝试创建一个例程,该例程从文本框中获取一个列表,然后使用另一个列表对其进行清理。仅保留具有匹配文本的字符串。我不认为我可以使用 RegEx,因为我不知道清理列表将包含什么。比赛不一定是绝对的。例如:
我以为我在下面的代码中走在了正确的轨道上,但是在最后两行代码下我都得到了红色的波浪线。任何帮助表示赞赏:
或者
我在这里做错了什么?
tsql - 检查在 T-SQL 中比较两个字符串的拼写错误
我们开发了一系列确定重复联系人记录的业务规则,这些规则的基础围绕着首先检查相同的姓名,然后比较电话号码、电子邮件、电话等其他字段。
问题是只有一小部分记录被捕获并自动清理/合并。
为了获取更多记录,我想包含或检查联系人姓名中的拼写错误(例如 Michael=Micheal)。
是否有一个很好的功能可以用来检查拼写错误,以便返回更准确的结果?我认为寻找比较两个字符串的单个字符差异的函数可以解决问题。
python - 数据清理和重新格式化
Python代码
清理和重新格式化数据是计算机科学中的一个现实问题,它是接收可能格式不正确的人工输入并将其清理为标准格式的过程。我如何编写一个程序,要求某人输入电话号码,然后如果可能的话以标准格式返回该电话号码,否则会出错。
例子:
请输入包含区号的电话号码:607-8675309
(607)867-5309
请输入包含区号的电话号码:16078675309
(607)867-5309
请输入包含区号的电话号码:(607) Jenny 我得到了你的号码,我需要让你成为我的,Jenny 不要更改你的号码,8675309
(607)867-5309
php - php为icecast听众清理网站
任何人都可以帮助使用php从下面的链接中提取当前的侦听器计数我也在下面附加了phph代码,但它需要修改
来源如下
到目前为止,我已经使用了以下内容,但需要对其进行修改
php - div的某个部分的HTML解析
我正在尝试访问 HTML 页面并从动态生成的 div 中获取某个数字。
我想检索“XX”作为变量,每个页面都会有所不同。
这是通过 HTML 解析还是简单的 preg_replace 完成的?
谢谢
php - 解析特定内容的文本文件
我正在尝试解析“价格”的内容将发生变化的动态 html 页面。
如何解析页面并获取价格值?我将每 30 秒运行一次脚本,看看价格是否有变化。
那是我需要解析的代码片段。“93.52”将在哪里发生变化。
如何获取存储在变量中的价格值?
提前致谢!
database - 编码下载程序的替代方案
在我的工作中,我们经常需要从外部来源获取数据,无论是通过 ftp、sftp、电子邮件抓取、Web 服务还是 Web 抓取。格式从屏幕抓取/解析到 CSV、XML、JSON 或 XLS 不等。
一位新的领导者现在进入了画面,并对我们编写了一个新程序(Java、C# 等)来处理每种类型的下载器感到震惊。这位领导者对这种做法进行了补偿,支持使用“现成软件”和“使用数据库提取数据”。
其他人对每个方向的看法是什么?有哪些可靠的工具可以消除编码下载程序?我们现在的方式真的那么“倒退”吗?
java - 需要更好的算法来使用 Java 清理 SQL Server 表
我需要定期清理 SQL Server 表,但我的解决方案花费的时间非常长(73,000 条记录大约需要 12 分钟)。
我的表有 4 个字段:
对于具有相同“id1”的每组记录,我需要保留第一个(最低 id2)和最后一个(最高 id2)并删除其中的所有内容,除非 val1 或 val2 已从上一个(下一个最低的“id2”)记录更改.
如果到目前为止您一直在关注我,那么更有效的算法是什么?这是我的java代码:
更新 2015 年 4 月 20 日上午 11:10
好的,这是我的最终解决方案 - 对于每条记录,Java 代码将 XML 记录输入到字符串中,该字符串每 10,000 条记录写入文件,然后 java 调用 SQL Server 上的存储过程并将文件名传递给读取。如果使用动态 SQL 执行 openrowset,存储过程只能使用文件名作为变量。我将玩弄程序执行的间隔,但到目前为止我的性能结果如下:
BEFORE(一次删除 1 条记录):
处理 73,000 条记录,每秒 101 条记录AFTER(批量 XML 导入):
处理 140 万条记录,每秒 5800 条记录
JAVA片段:
XML 文件输出:
SQL SERVER 存储过程:
android - 如何在擦洗视频时显示预览缩略图。
当用户将手指移到视频擦除器上时,我正在尝试显示预览缩略图。
我找到的唯一解决方案是使用一些 3rd 方工具提取缩略图并将其保存到服务器或通过一些 JSON 将其传递给应用程序。
我想做的是类似于 JwPlayer ( http://jwplayer.electroteque.org/controls-preview )
知道从哪里开始吗?
或者这里有任何支持手动生成缩略图的标准协议吗?或者我需要使用我自己的提要格式。