1

我是 R 的新手,我的问题是我没有任何真实世界的经验。我的意思是,我学到了很多东西,但是当我有新的任务要处理时,我总是很挣扎。一般来说,我说的是,如何开始处理新任务。

有时数据集是如此之大(令人惊讶:))以至于我无法获得关于它的全景图,并且通常使用的函数如 str()、summarise()、head()、tail() 可能来自包 dplyr 的 sample_n 是不足以让我满意。

我在网上找到的几乎每个示例都是关于几乎完美的数据集。如果我们需要对数据进行清洗,我们可以相对容易地识别出基本问题,因为这些问题是明确的,您可以通过检查 head() 或其他东西来实现它们。

真实世界的数据呢?如果列在数据集的中间移动,或者有些行的值包含不适当的符号或空格或其他内容(薪水、价格、电话号码等),该怎么办?

总而言之:-您熟悉数据集的一般方法是什么(假设我们已经知道变量的含义,因为我们有关于它的描述)?- 你有一般的检查方法吗?

我知道没有两个类似的项目,但我对您的基本工作流程(带有一些示例或解释)非常感兴趣。

先感谢您

4

0 回答 0