“data-scrubbing”的相关标签问题

0 投票

1 回答

986 浏览

sas - 如何使用 SAS 程序从 PDF 中读取数据

问题陈述：我无法使用 SAS 从 PDF 文件中读取数据。

效果如何：我可以从网站上下载 PDF 并保存。

不工作（需要帮助）：我无法使用 SAS 从 PDF 文件中读取数据。源内容结构应始终保持不变。预期输出附加为 jpg 图像。

如果有人知道并帮助我如何使用 SAS 程序解决这种情况，那将是一个很好的学习和帮助。

我试过这样的事情：

2020-12-10T20:06:57.803

0 投票

1 回答

125 浏览

python - Python pandas 如果列值是列表，则使用单独的列表值创建新列

我正在使用 pandas 从 SaaS REST API json 响应创建一个数据框，并点击一个小阻止程序来清理数据以进行可视化和分析。

我需要通过添加一个条件函数来调整python脚本，以说明该值是否在列表中，然后删除括号，将值分隔为新列并将新列命名为[原始列名+值列表顺序]。

在发布的类似问题中，该函数是在指定列上执行的，而我需要在数据框中的所有 1,400 多列上运行检查。基本上，excel文本到列，列标题名称是[原始列名+值列表顺序]

当前的

需要

这是来自 .json 响应的数据框创建脚本

任何帮助将不胜感激谢谢大家！

PS - 如果在 Tableau/Tableau prep builder 中这样做更有意义，我有一个 Tableau 创建者许可证

python pandas function dataframe data-scrubbing

2020-12-17T04:51:08.440

0 投票

3 回答

3875 浏览

ceph - 未及时深度清理的 Ceph PG 不断增加

我大约 4 天前注意到了这一点，现在不知道该怎么办。问题如下：

我有一个 6 节点 3 监视器 ceph 集群，有 84 个 osds、72x7200rpm 旋转磁盘和 12xnvme ssds 用于日志记录。清理配置的每个值都是默认值。集群中的每个 pg 都是 active+clean，每个集群 stat 都是绿色的。然而，没有及时进行深度清洗的PG不断增加，目前为96。ceph -s 的输出：

我该如何解决这个问题？此外，ceph 健康详细信息输出显示此非深度清理 pg 警报于 1 月 25 日开始，但我之前没有注意到这一点。我注意到这一点的时间是一个 osd 宕机 30 秒然后起床的时候。可能与这个问题有关吗？它会自行解决吗？我应该篡改擦洗配置吗？例如，如果我将 osd_max_scrubs 从 1 增加到 2，我可能会在客户端面临多少性能损失？

ceph object-storage data-scrubbing

2021-02-08T14:35:11.517

0 投票

1 回答

305 浏览

我时不时地在我的集群上收到一个 pg 不一致错误。正如文档所建议的那样，我运行 ceph pg repair pg.id 并且命令给出“在 osd y 上指示 pg x 进行修复”似乎按预期工作。但是它并没有立即启动，这可能是什么原因？我正在运行 24 小时磨砂，所以在任何给定时间我至少有 8-10 皮克被擦洗或深度擦洗。清理或修复等 pg 进程是否形成队列，我的修复命令是否只是等待轮到它？或者这背后还有其他问题吗？

编辑：

Ceph 运行状况详细信息输出：

的输出

此 pg 在 EC 池中。当我运行 ceph pg repair 57.ee 我得到输出：

但是，正如您从 pg 报告中看到的，不一致的分片位于 osd 59 中。我认为输出末尾的“s0”指的是第一个分片，所以我也尝试了这样的修复命令：

ceph pg repair 57.ees3 但我收到一个错误，告诉我这是无效命令。

ceph object-storage data-scrubbing

2021-03-19T07:32:16.800

0 投票

3 回答

196 浏览

algorithm - 最快的字符串过滤算法

我有 5,000,000 个以这种方式格式化的无序字符串（Name.Name.Day-Month-Year 24hrTime）：

找到时间 t 在某个 n 和 m 之间的所有字符串的最快方法是什么？（即删除所有时间 < n || m < time 的字符串的最快方法）

这种过滤将在不同的范围内进行多次。时间范围必须始终在同一天，并且开始时间始终早于结束时间。

在 java 中，这是我目前的方法，给出了一些时间字符串 M 和 N 以及 500 万个字符串列表：

Java 是我的母语，但任何其他语言也可以。更好/更快的逻辑是我所追求的

algorithm sorting data-science mathematical-optimization data-scrubbing

2021-05-16T23:00:24.377

0 投票

1 回答

64 浏览

algorithm - 查找整数是否存在于范围列表中

给定一个包含 1,000,000 个唯一整数的数组 N，范围从 0 到 1,999,999。过滤掉 M 内任何范围内不存在的整数的最快方法是什么 - 其中 M 是 10 个随机范围的固定组，每个范围的整数范围为 0 到 1,999,999？

数字较小的短样本：

给定这组 N 个唯一整数：[1,5,7,8,20,22,30] 和这组 M 个范围：[(1,6) , (19,21), (23,50)]

找出在 M 的任何范围内存在的 N 值（包括边界）

解决方案：[1,5,20,30]

Java 是首选（运行时间/复杂性测试），但任何其他语言都可以

algorithm sorting data-science mathematical-optimization data-scrubbing

2021-05-19T02:16:36.083

0 投票

0 回答

16 浏览

web-scraping - 如何从 2 个下拉菜单中抓取数据

我想从中提取数据：

https://www.autotrader.co.uk/bikes/search-form?moreOptions=visible&make=SUZUKI&advertising-location=at_bikes

我可以成功地拥有自行车品牌，但我想拥有每个品牌的模型，我不知道我能用什么或如何做到这一点我尝试了数据挖掘器 crome 插件和其他类似的软件

web-scraping scrapy screen-scraping data-mining data-scrubbing

2021-06-14T02:09:48.863

0 投票

2 回答

43 浏览

python - Python/ Beautiful Soup 数据显示问题

我正在尝试从网站中提取一些数据。一旦我检查了我用 beuatifulsoup 提取的数据（在下面的代码中使用 print(soup) ）似乎不太好。这与我使用view-source:URL检查时不同。我无法找到我正在寻找的字段。你能帮我找到解决办法吗？

网站：https ://www.wayfair.com/furniture/pdp/mercury-row-stalvey-contemporary-4725-wide-1-drawer-server-w003245064.html

基本上，我想知道这个产品的价格。我在其他网站上使用了相同的代码结构，它可以正常工作，但不能在 Wayfair 上工作。

我找不到解决方案的第二件事是我的代码的最后一行（StyledBox-owpd5f-0 PriceV2__StyledPrice-sc-7ia31j-0 lkFBUo pl-Price-V2 pl-Price-V2--5000）。除了产品名称，有没有办法只获得 389.99 美元这样的价格？

提前致谢！

这是我的代码：

python beautifulsoup data-scrubbing

2021-07-22T11:31:44.937

0 投票

0 回答

32 浏览

python - How to extract table and text from docx?

I am working on extracting text and tables from Docx files using pydocx library. I have to extract text and tables separately from the doc file that is creating issue of linking tabular data with text content.

I want to extract above data in a single call. Is that possible?

python data-scrubbing

2021-07-23T06:05:27.097

问题标签 [data-scrubbing]

sas - 如何使用 SAS 程序从 PDF 中读取数据

python - Python pandas 如果列值是列表，则使用单独的列表值创建新列

ceph - 未及时深度清理的 Ceph PG 不断增加

ceph - ceph pg 修复不会立即开始

algorithm - 最快的字符串过滤算法

algorithm - 查找整数是否存在于范围列表中

web-scraping - 如何从 2 个下拉菜单中抓取数据

python - Python/ Beautiful Soup 数据显示问题

python - How to extract table and text from docx?

问题标签 [data-scrubbing]

Reference