r - 使用 unnest_tokens() 按特定字符拆分列？

Question

我正在使用一列格式化为字符串的 url 向量，每个 url 用逗号分隔：

column_with_urls

[“url.a，url.b，url.c”]

[“url.d，url.e，url.f”]

我想使用tidytext::unnest_tokens()R 函数将它们分成每行一个 url（尽管我对其他最好基于 R 的解决方案持开放态度）。我在这里阅读了文档的文档，但我不知道是否可以/建议输入单个字符进行拆分。

我的想法是这样的unnest_tokens(url, column_with_urls, by = ',')。有没有办法指定这种论点和/或解决这个问题的更好方法？

我想要的输出是一个数据框，每行有一个 url，如下所示（以及复制到每一行的原始行的所有其他数据）：

网址

网址.a

网址.b

网址.c

...

提前致谢。

score 5 · Accepted Answer

该unnest_tokens函数有一个选项供您拆分正则表达式模式。下面是使用此选项以逗号分隔的示例语法（您也可以将其用于更复杂的模式）。

请注意，这会将您的输入数据的类转换为tibble

my_df = data.frame(id=1:2, urls=c("url.a, url.b, url.c",
                                  "url.d, url.e, url.f"))
tidytext::unnest_tokens(my_df, out, urls, token = 'regex', pattern=",")
# # A tibble: 6 × 2
#     id    out
#   <int>  <chr>
# 1     1  url.a
# 2     1  url.b
# 3     1  url.c
# 4     2  url.d
# 5     2  url.e
# 6     2  url.f

r - 使用 unnest_tokens() 按特定字符拆分列？

1 回答 1

Related

Reference