https://www.kaggle.com/shivamb/netflix-shows-and-movies-exploratory-analysis/data ---- 包含数据集。
这是对 Netflix 数据集中的节目进行的探索性数据分析。数据整理过程有两个主要目标。首先是从 date_added 列中单独获取年份部分。其次是创建一个新列,其中包含持续时间列中特定节目的季节数。我已经依靠包中的separate
功能dplyr
来实现上述两个目标。
代码如下:-
# Neitlix EDA ----
# https://www.kaggle.com/shivamb/netflix-shows-and-movies-exploratory-analysis
library(tidyverse)
library(lubridate)
net_flix <- read.csv("netflix_titles_nov_2019.csv")
net_flix_wrangled_tbl <- net_flix %>%
separate(date_added,
into = c("date","month","year"),
sep = "-",
remove = FALSE)%>%
separate(duration,
into = c("count","show_type"),
sep = " ",
remove = FALSE)%>%
glimpse()
不想下载数据的可以使用下面包含的数据框代码:
sf <- data.frame(date_added = c("30-11-19", "29-11-19", "", "12-07-19", "", "16-09-19"),
duration = c("1 Season", "67 min", "135 min", "2 Seasons", "107 min", "3 Seasons"))
输出与separate()
从持续时间列中获取日期和过滤季节数的函数一起使用。
但是,这是否可以通过使用lubridate
包获取年份和ifelse()
/filter()
或Regex
函数来获取仅获取季节数而不获取电影分钟数以更好和更强大的方式完成?