问题标签 [data-profiling]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
database-design - 关于客户画像系统的建议:书籍、文章等
我将使用 C# 为我们自己的电子商务网站开展客户分析项目(与 Google Analytics 类似但不同)。我对这种项目很陌生,客户分析项目也是一个全新的项目。你能给我一些建议吗?
我觉得应该有两个部分,第一个是“跟踪网站访问数据”,第二个是“分析跟踪数据”。
你能给我一些建议吗?谢谢:
- 什么样的设计模式最适合这种项目?(管道和过滤器?还是其他?)我正在使用 C#。
- 什么样的数据库最合适?RDBMS 还是文档数据库?
- 如何为存储跟踪数据的数据库表建模?
- 我可以使用哪些关键字在 Google 上搜索此主题?
- 你能给我推荐一些文章或书籍来阅读吗?(文章比较好,因为没那么多时间看书)
- 你认为我需要学习的任何其他东西。
提前致谢!
mysql - MySQL容量规划
在我的生产环境中,我有一个 MySQL 服务器实例,它在 16gig 内存上运行,每小时处理多达 20,000 个查询。我的一张桌子的大小正在以每月 200 万张的速度增长。随着时间的推移,这两个数字都有望上升,但我不确定何时需要改进架构。
一个人如何能够积极应对这种情况并着手对系统进行未来验证?
升级硬件是否会在时间和资金效率方面带来很多好处?
在这种情况下,常见的做法是什么,如果我们每 3 个月将流量翻一番,分片会是一个自然的过程吗?或者还有其他选择吗?
我什至如何判断我的系统是否达到峰值,有哪些工具可用于分析数据库?我会用什么指标来衡量它?
visual-studio-2010 - 无法在 Visual Studio 2012 中启动并发可视化工具。出现错误“无法启动 ETW 集合”
当我尝试使用 Concurrency Visualzer 分析 WPF 应用程序(尝试启动和附加到进程)时,弹出以下错误 - “无法启动 ETW 集合”
ETW 明确表示“Windows 事件跟踪”,但我不明白为什么 VS 在分析会话期间无法启动它。谢谢您的帮助。
sql - 通过 SSIS 对文件进行数据分析
我是 SSIS 开发的新手。我需要 SSIS 专家的一些指导。以下是问题列表:
我们有大小从 1GB 到 25GB 的 txt 或 dat 类型的文件,带有制表符分隔。有时,这些文件可能包含无效行、无效数据类型或大量字符串值,导致将文件数据导入 SQL 表时失败
任何人都可以提供使用如何在加载到实际的 SQL 表之前对文件执行数据分析,例如
- 列中具有 NULL 值的无效行数 文件中存在的行数 列中数据类型值错误的行数 例如:文件有可能
在 int 字段中保存字符串数据 - 有时列之间的行分隔符例如:如果文件中有 10 列,如果在 5-6 列之间有行分隔符,这导致当前行数据从 6-10 列移动到下一行。应在 Data Profiler 中检查此方案。
- SSMS 中是否有办法识别每行中的所有列都具有相等的列长度。如果它不存在抛出错误。但识别这些行需要更快
database - 从数据集中提取模式
我有一个表格,其中有几列填充了来自不同参数的数据。由于某些行可能共享相同的列值,我想为每列提取重复次数最多的值,以便获得每列最常见值的配置文件。
我正在使用 Oracle 数据库技术,所以……最好的方法是什么?
此致!
linux - 测量进程的峰值磁盘使用
我正在尝试在时间、内存和磁盘使用方面对我正在开发的工具进行基准测试。我知道/usr/bin/time
基本上给了我前两个想要的东西,但是对于磁盘使用,我得出的结论是我必须推出自己的 bash 脚本,该脚本会定期从/proc/<my_pid>/io
. 基于这个脚本,这就是我想出的:
不幸的是,我遇到了两个问题:
- 首先是我将此脚本的输出与我想对文件进行基准测试的工具的输出一起通过管道传输,似乎这些流偶尔会干扰,导致我看到底部报告的磁盘使用为 0 或过低这个文件。
- 第二个问题是我不知道如何处理将临时文件作为其进程的一部分删除的进程。在这种情况下,我认为公平的基准是记录最大的净磁盘使用量(即写入的字节数峰值 - 擦除的字节数),但我不知道在哪里可以找到这种差异的第二部分。
我该如何解决这些问题?
sql - 生成 PostgreSQL 统计信息/数据分析
我想使用免费工具在 PostgreSQL 上自动进行数据分析,该工具通过列配置文件或值的百分比分布检查数据内容。像最大值,最小值,平均值。
powerbi - Power BI 中的数据分析
我想分析我的 Power BI 报告中的每一个数据表。通过数据配置文件,我的意思是这样的:
有没有办法在 Power BI 中制作数据配置文件视图?DAX 度量或计算列?
或者,您也可以推荐其他可以处理此类任务的数据质量工具,因为我发现在 Power BI 中实现此结果有点困难。
xslt - XSLT:将两个文件复制到一个通用结构中
我尝试将多个表的 SSIS 数据探查器任务的结果合并到一个 XML 中,以检查“数据探查器查看器”内单个文件中的结果。整个问题在这里缩小为简化的 XML 转换:
文件 1 (test_1.xml):
文件 2 (test_2.xml):
(元素 b 始终完全相同)
预期结果:
强烈推荐任何帮助!我将在这里提供原始问题的解决方案。