问题标签 [data-cleaning]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
iphone - 使用 echoprint 对整个 iPhone 音乐库进行指纹识别
我想知道用 echoprint 对 iphone 4+ 的整个音乐库进行指纹识别会有多密集。分析 2-3k 首歌曲需要多长时间?这甚至合理吗?
r - R中“查找和删除”完整字符串而不是子字符串的代码?
我试图找到一种基于某些字符串的出现快速清理大型数据集的方法。我有一个如下所示的 data.frame:
您可以在此处找到完整的 CSV 。
我正在为“在 R 中查找和删除”编写命令:
我的代码现在删除了每一行,我不太确定,因为我使用的是 fixed = TRUE 参数。我想要的是删除“Event”是完整字符串的所有行,因为它是每一行中的子字符串。如何限制我的代码以完成字符串?
data-cleaning - 谷歌优化行和列之间的交叉引用
我不确定这是否可以在 Google Refine 中实现。但基本上,我有这样的数据。
第一个表是所有用户的表。第二张表显示所有朋友。但是,在"friends"
列中的第二个表中,并非所有 id 都存在于我要删除的第一个表中。那么,如何friends
在第二个表的列中搜索每个 id 并删除表 1 中不存在的 id?
python - 使用python中的字典在文本文件中查找字典单词
我阅读了如何检查字典单词
并且我想到了使用字典检查我的文本文件。我已经阅读了pyenchant说明,我想如果我用它get_tokenizer
来把文本文件中的所有字典单词都还给我。
所以这就是我卡住的地方:我希望我的程序以段落的形式给我所有的字典单词组。一旦遇到任何垃圾字符,就认为是一个段落中断,并忽略从那里开始的所有内容,直到找到 X 个连续单词。
我希望它按顺序读取文本文件filename_nnn.txt
,解析它,然后写入parsed_filname_nnn.txt
. 我还没有做任何文件操作。
到目前为止我所拥有的:
- - - 示例文本 - - -
2008 年 6 月 25 日,星期三,英国板球与津巴布韦断绝关系 text<void(0);><void(0);> <void(0);>email <void(0);>打印 EMAIL THIS ARTICLE 您的姓名:您的电子邮件地址:收件人姓名:收件人的电子邮件地址:<;>添加另一个收件人您的评论:发送邮件< ;void(0);> 关闭此表格 < http://ad.au.doubleclick.net/jump/sbs.com.au/worldnews;sz=300x250;tile=2;ord=123456789?> ; 英格兰和威尔士板球委员会(ECB)宣布暂停与津巴布韦的所有联系,并取消津巴布韦明年的英格兰之旅。
该脚本应返回:
英国板球周三与津巴布韦断绝关系
英格兰和威尔士板球委员会(ECB)宣布暂停与津巴布韦的所有联系,并取消津巴布韦明年的英格兰之旅
我接受了阿巴纳特的回应。下面是我的最终脚本。请注意,这是非常低效的,应该清理一些。另外免责声明我很久以前大学以来就没有编码过。
r - R中美元价值和百分比的数据清理
我一直在寻找 R 中的一些包来帮助我将美元值转换为漂亮的数值。我似乎找不到一个(例如在 plyr 包中)。我正在寻找的基本内容是简单地删除 $ 符号以及分别将“M”和“K”翻译为百万和数千。
要复制,我可以使用下面的代码:
数据如下所示:
我最终编写了自己的函数:
然后我用它来得到我想要的:
这将在下面给我这个结果:
我是 R 新手,我觉得我写的代码太丑了,肯定有更好的方法来做到这一点而无需重新发明轮子吗?我使用了 apply、aaply、ddply 函数但没有成功(我也试图不使用 for 循环......)。最重要的是,在处理 SuccessRate 列时,我在 R 中找不到类似 as.percentage 的函数。我错过了什么?
任何指导将不胜感激!
regex - 如何使用正则表达式从文本文档中删除超链接、电子邮件 ID 等?
我有一些文本文档,其中包含:
- 不同类型的电子邮件地址:我指的是公共域,例如gmail、yahoo等,以及私人电子邮件,例如abc@mycompany.org ...
- 不同的超链接,例如abc.com、http ://abc.com、www.abc.org、 ...
所以,我想知道我是否可以编写一个正则表达式命令来从我的文档中删除所有此类条目以进行进一步处理,如果可以,请分享一些链接、文档或任何有用的东西。我希望使用 regex 函数从文档中删除任何类型的电子邮件 ID 或超链接。我将在 R 中实现正则表达式代码。因为,我是这个领域的新手,所以任何详细的解释都将受到高度赞赏。
所以,如果我输入如下:
“abc@mycompany.org aasd234bc.com 将保留http://abc.com www.abc.org org com .com comm in sahgo234@flkja23.in”
然后我应该得到输出:
“被保留 org com comm in”
django - 完全剥离 Django 表单中的某些 HTML 标签
我有一个将新闻项目发布到数据库的 ModelForm,它使用 javascript textarea 来允许授权的发布者插入某些 HTML 来设置文本样式,例如粗体和斜体。但是,由于我使用“安全”过滤器进行模板输出,因此它会输出表单小部件尝试传递的所有 HTML。这包括一个永远不会消失的麻烦<br>
标签,使您可以在没有表单验证的情况下提交,将字段读取为空并阻止您。我怎样才能使我不仅可以过滤<br>
标签,而且可以将其从数据中完全删除?以下是相关代码:
模型.py:
视图.py:
新闻列表.html:
r - 使用数据表对子集执行操作
我有一个广泛的调查数据集。对于特定问题,在原始数据中创建了一组变量,以代表在特定月份提出调查问题的不同事实。
我希望创建一组具有月份不变名称的新变量;这些变量的值将对应于观察月份的月份变量问题的值。
请查看示例/虚构数据集:
在这个调查中,实际上只有两个问题:“q1”和“q2”。这些问题中的每一个都被反复问了几个月。但是,仅当数据中观察到的月份与特定月份的调查问题匹配时,该观察才包含有效响应。
例如:对于“May”中的任何观察,“may.q1”都被观察为“yes”。我想要一个新的“Q1”变量来表示“may.q1”、“jun.q1”和“jul.q1”。当月份为“may”时,“Q1”的值将采用“may.q1”的值,当月份为“jun”时,“Q1”的值将采用“jun.q1”的值.
如果我要尝试使用数据表手动执行此操作,我会想要类似的东西:
我希望这个重复“按=月”。
如果我将“plyr”包用于数据框,我将使用以下方法解决:
任何使用 data.table 方法的帮助将不胜感激,因为我的数据很大。谢谢你。
regex - notepad++:保留正则表达式(每行多次出现)和行结构,删除其他字符
我有一个包含专利信息的 130k 行文本文件,我只想保留日期(正则表达式"[0-9]{4}-[0-9]{2}-[0-9]{2} "
)以便在 Excel 中进行后续工作。为此,我需要保持行结构完整(也是空行)。我的主要问题是我似乎无法找到一种方法来识别并在同一行中保留多次出现的日期信息,同时删除所有其他信息。
原始文件结构:
所需的文件结构:
谢谢您的帮助!
python - 用之前的非缺失值填充缺失的 pandas 数据,按 key 分组
我正在处理这样的熊猫数据框:
我想用具有相同 'id' 值的行中的前一个非 NAN 'x' 替换每个 NAN 'x':
有没有一些巧妙的方法可以在不手动循环行的情况下做到这一点?