问题标签 [data-scrubbing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - Python pandas 如果列值是列表,则使用单独的列表值创建新列
我正在使用 pandas 从 SaaS REST API json 响应创建一个数据框,并点击一个小阻止程序来清理数据以进行可视化和分析。
我需要通过添加一个条件函数来调整python脚本,以说明该值是否在列表中,然后删除括号,将值分隔为新列并将新列命名为[原始列名+值列表顺序]。
在发布的类似问题中,该函数是在指定列上执行的,而我需要在数据框中的所有 1,400 多列上运行检查。基本上,excel文本到列,列标题名称是[原始列名+值列表顺序]
这是来自 .json 响应的数据框创建脚本
任何帮助将不胜感激谢谢大家!
PS - 如果在 Tableau/Tableau prep builder 中这样做更有意义,我有一个 Tableau 创建者许可证
ceph - 未及时深度清理的 Ceph PG 不断增加
我大约 4 天前注意到了这一点,现在不知道该怎么办。问题如下:
我有一个 6 节点 3 监视器 ceph 集群,有 84 个 osds、72x7200rpm 旋转磁盘和 12xnvme ssds 用于日志记录。清理配置的每个值都是默认值。集群中的每个 pg 都是 active+clean,每个集群 stat 都是绿色的。然而,没有及时进行深度清洗的PG不断增加,目前为96。ceph -s 的输出:
我该如何解决这个问题?此外,ceph 健康详细信息输出显示此非深度清理 pg 警报于 1 月 25 日开始,但我之前没有注意到这一点。我注意到这一点的时间是一个 osd 宕机 30 秒然后起床的时候。可能与这个问题有关吗?它会自行解决吗?我应该篡改擦洗配置吗?例如,如果我将 osd_max_scrubs 从 1 增加到 2,我可能会在客户端面临多少性能损失?
ceph - ceph pg 修复不会立即开始
我时不时地在我的集群上收到一个 pg 不一致错误。正如文档所建议的那样,我运行 ceph pg repair pg.id 并且命令给出“在 osd y 上指示 pg x 进行修复”似乎按预期工作。但是它并没有立即启动,这可能是什么原因?我正在运行 24 小时磨砂,所以在任何给定时间我至少有 8-10 皮克被擦洗或深度擦洗。清理或修复等 pg 进程是否形成队列,我的修复命令是否只是等待轮到它?或者这背后还有其他问题吗?
编辑:
Ceph 运行状况详细信息输出:
的输出
此 pg 在 EC 池中。当我运行 ceph pg repair 57.ee 我得到输出:
但是,正如您从 pg 报告中看到的,不一致的分片位于 osd 59 中。我认为输出末尾的“s0”指的是第一个分片,所以我也尝试了这样的修复命令:
ceph pg repair 57.ees3 但我收到一个错误,告诉我这是无效命令。
algorithm - 最快的字符串过滤算法
我有 5,000,000 个以这种方式格式化的无序字符串(Name.Name.Day-Month-Year 24hrTime):
找到时间 t 在某个 n 和 m 之间的所有字符串的最快方法是什么?(即删除所有时间 < n || m < time 的字符串的最快方法)
这种过滤将在不同的范围内进行多次。时间范围必须始终在同一天,并且开始时间始终早于结束时间。
在 java 中,这是我目前的方法,给出了一些时间字符串 M 和 N 以及 500 万个字符串列表:
Java 是我的母语,但任何其他语言也可以。更好/更快的逻辑是我所追求的
algorithm - 查找整数是否存在于范围列表中
给定一个包含 1,000,000 个唯一整数的数组 N,范围从 0 到 1,999,999。过滤掉 M 内任何范围内不存在的整数的最快方法是什么 - 其中 M 是 10 个随机范围的固定组,每个范围的整数范围为 0 到 1,999,999?
数字较小的短样本:
给定这组 N 个唯一整数:[1,5,7,8,20,22,30] 和这组 M 个范围:[(1,6) , (19,21), (23,50)]
找出在 M 的任何范围内存在的 N 值(包括边界)
解决方案:[1,5,20,30]
Java 是首选(运行时间/复杂性测试),但任何其他语言都可以
web-scraping - 如何从 2 个下拉菜单中抓取数据
我想从中提取数据:
我可以成功地拥有自行车品牌,但我想拥有每个品牌的模型,我不知道我能用什么或如何做到这一点我尝试了数据挖掘器 crome 插件和其他类似的软件
python - Python/ Beautiful Soup 数据显示问题
我正在尝试从网站中提取一些数据。一旦我检查了我用 beuatifulsoup 提取的数据(在下面的代码中使用 print(soup) )似乎不太好。这与我使用view-source:URL检查时不同。我无法找到我正在寻找的字段。你能帮我找到解决办法吗?
基本上,我想知道这个产品的价格。我在其他网站上使用了相同的代码结构,它可以正常工作,但不能在 Wayfair 上工作。
我找不到解决方案的第二件事是我的代码的最后一行(StyledBox-owpd5f-0 PriceV2__StyledPrice-sc-7ia31j-0 lkFBUo pl-Price-V2 pl-Price-V2--5000)。除了产品名称,有没有办法只获得 389.99 美元这样的价格?
提前致谢!
这是我的代码:
python - How to extract table and text from docx?
I am working on extracting text and tables from Docx files using pydocx library. I have to extract text and tables separately from the doc file that is creating issue of linking tabular data with text content.
I want to extract above data in a single call. Is that possible?