问题标签 [data-scrubbing]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
986 浏览

sas - 如何使用 SAS 程序从 PDF 中读取数据

问题陈述:我无法使用 SAS 从 PDF 文件中读取数据。

效果如何:我可以从网站上下载 PDF 并保存。

不工作(需要帮助):我无法使用 SAS 从 PDF 文件中读取数据。源内容结构应始终保持不变。预期输出附加为 jpg 图像。

如果有人知道并帮助我如何使用 SAS 程序解决这种情况,那将是一个很好的学习和帮助。 下图是 PDF 格式的源文件,SAS 数据集格式的预期结果相同:

我试过这样的事情:

0 投票
1 回答
125 浏览

python - Python pandas 如果列值是列表,则使用单独的列表值创建新列

我正在使用 pandas 从 SaaS REST API json 响应创建一个数据框,并点击一个小阻止程序来清理数据以进行可视化和分析。

我需要通过添加一个条件函数来调整python脚本,以说明该值是否在列表中,然后删除括号,将值分隔为新列并将新列命名为[原始列名+值列表顺序]。

在发布的类似问题中,该函数是在指定列上执行的,而我需要在数据框中的所有 1,400 多列上运行检查。基本上,excel文本到列,列标题名称是[原始列名+值列表顺序]

当前的 在此处输入图像描述

需要 在此处输入图像描述

这是来自 .json 响应的数据框创建脚本

任何帮助将不胜感激谢谢大家!

PS - 如果在 Tableau/Tableau prep builder 中这样做更有意义,我有一个 Tableau 创建者许可证

0 投票
3 回答
3875 浏览

ceph - 未及时深度清理的 Ceph PG 不断增加

我大约 4 天前注意到了这一点,现在不知道该怎么办。问题如下:

我有一个 6 节点 3 监视器 ceph 集群,有 84 个 osds、72x7200rpm 旋转磁盘和 12xnvme ssds 用于日志记录。清理配置的每个值都是默认值。集群中的每个 pg 都是 active+clean,每个集群 stat 都是绿色的。然而,没有及时进行深度清洗的PG不断增加,目前为96。ceph -s 的输出:

我该如何解决这个问题?此外,ceph 健康详细信息输出显示此非深度清理 pg 警报于 1 月 25 日开始,但我之前没有注意到这一点。我注意到这一点的时间是一个 osd 宕机 30 秒然后起床的时候。可能与这个问题有关吗?它会自行解决吗?我应该篡改擦洗配置吗?例如,如果我将 osd_max_scrubs 从 1 增加到 2,我可能会在客户端面临多少性能损失?

0 投票
1 回答
305 浏览

ceph - ceph pg 修复不会立即开始

我时不时地在我的集群上收到一个 pg 不一致错误。正如文档所建议的那样,我运行 ceph pg repair pg.id 并且命令给出“在 osd y 上指示 pg x 进行修复”似乎按预期工作。但是它并没有立即启动,这可能是什么原因?我正在运行 24 小时磨砂,所以在任何给定时间我至少有 8-10 皮克被擦洗或深度擦洗。清理或修复等 pg 进程是否形成队列,我的修复命令是否只是等待轮到它?或者这背后还有其他问题吗?

编辑:

Ceph 运行状况详细信息输出:

的输出

此 pg 在 EC 池中。当我运行 ceph pg repair 57.ee 我得到输出:

但是,正如您从 pg 报告中看到的,不一致的分片位于 osd 59 中。我认为输出末尾的“s0”指的是第一个分片,所以我也尝试了这样的修复命令:

ceph pg repair 57.ees3 但我收到一个错误,告诉我这是无效命令。

0 投票
3 回答
196 浏览

algorithm - 最快的字符串过滤算法

我有 5,000,000 个以这种方式格式化的无序字符串(Name.Name.Day-Month-Year 24hrTime):

找到时间 t 在某个 n 和 m 之间的所有字符串的最快方法是什么?(即删除所有时间 < n || m < time 的字符串的最快方法)

这种过滤将在不同的范围内进行多次。时间范围必须始终在同一天,并且开始时间始终早于结束时间。

在 java 中,这是我目前的方法,给出了一些时间字符串 M 和 N 以及 500 万个字符串列表:

Java 是我的母语,但任何其他语言也可以。更好/更快的逻辑是我所追求的

0 投票
1 回答
64 浏览

algorithm - 查找整数是否存在于范围列表中

给定一个包含 1,000,000 个唯一整数的数组 N,范围从 0 到 1,999,999。过滤掉 M 内任何范围内不存在的整数的最快方法是什么 - 其中 M 是 10 个随机范围的固定组,每个范围的整数范围为 0 到 1,999,999?

数字较小的短样本:

给定这组 N 个唯一整数:[1,5,7,8,20,22,30] 和这组 M 个范围:[(1,6) , (19,21), (23,50)]

找出在 M 的任何范围内存在的 N 值(包括边界)

解决方案:[1,5,20,30]

Java 是首选(运行时间/复杂性测试),但任何其他语言都可以

0 投票
0 回答
16 浏览

web-scraping - 如何从 2 个下拉菜单中抓取数据

我想从中提取数据:

https://www.autotrader.co.uk/bikes/search-form?moreOptions=visible&make=SUZUKI&advertising-location=at_bikes

我可以成功地拥有自行车品牌,但我想拥有每个品牌的模型,我不知道我能用什么或如何做到这一点我尝试了数据挖掘器 crome 插件和其他类似的软件

0 投票
2 回答
43 浏览

python - Python/ Beautiful Soup 数据显示问题

我正在尝试从网站中提取一些数据。一旦我检查了我用 beuatifulsoup 提取的数据(在下面的代码中使用 print(soup) )似乎不太好。这与我使用view-source:URL检查时不同。我无法找到我正在寻找的字段。你能帮我找到解决办法吗?

网站:https ://www.wayfair.com/furniture/pdp/mercury-row-stalvey-contemporary-4725-wide-1-drawer-server-w003245064.html

基本上,我想知道这个产品的价格。我在其他网站上使用了相同的代码结构,它可以正常工作,但不能在 Wayfair 上工作。

我找不到解决方案的第二件事是我的代码的最后一行(StyledBox-owpd5f-0 PriceV2__StyledPrice-sc-7ia31j-0 lkFBUo pl-Price-V2 pl-Price-V2--5000)。除了产品名称,有没有办法只获得 389.99 美元这样的价格?

提前致谢!

这是我的代码:

0 投票
0 回答
32 浏览

python - How to extract table and text from docx?

I am working on extracting text and tables from Docx files using pydocx library. I have to extract text and tables separately from the doc file that is creating issue of linking tabular data with text content.

I want to extract above data in a single call. Is that possible?