r - 从R中的有序对象集合（列表）中删除非字母数字字符

Question

我有一个关于从 R 中的列表中删除非字母数字字符的问题。我有一个列表将包含各种奇数字符、空格等，并希望删除它们。我通常可以使用 r 中的 tm 包删除我想要的内容。我摆弄它，但无处可去，所以认为回到列表可能是开始的地方。

名单：

 list("\n    \n", "\n\n  ", "\n        ", "               ", "\n    ", 
 "\n            \n      ", "\n        ", "Home", "\n", "Expertise", 
 "Question & Research Design", "\n", "Survey Development & Validation", 
 "\n", "Data Processing", "\n", "Statistical Analysis", "\n", 
 "Publications & Grants", "\n", "Evaluation", "\n", "\n", 
 "Consulting Areas", "Business", "\n", "Education", "K-12", 
 "\n", "Â ", " Â Â  Â  Â", " | ")

预期输出

[1] ""                               ""                         ""
[4] ""                               ""                         ""
[7] ""                               "Home"                     ""
[10] "Expertise"                     "Question Research Design" ""
[13] "Survey Development Validation" ""                         "Data Processing"
[16] ""                              "Statistical Analysis"     ""
[19] "Publications Grants"           ""                         "Evaluation"
[22] ""                              ""                         "Consulting Areas"
[25] "Business"                      ""                         "Education"
[28] "K12"                           ""                         ""
[31] ""                              ""

score 5 · Accepted Answer

强烈建议您简单地使用

gsub("[^a-zA-Z0-9]","",x)

其中 x 是列表的名称。

您可能在列表末尾包含了外来字符，因为您也希望这些外来字符 - 好吧，上面的命令实现了这一点。简单解释一下，命令中的方括号定义了一个符号集合，而 ^ 符号表示“不是”，所以不在指定的 62 个字符集中的所有内容（小写 a 到 z，大写 A 到 Z，和数字 0 到 9) 将被空字符串 "" 替换（即销毁）。

这是输出...

 [1] ""                             ""                        ""
 [4] ""                             ""                        ""
 [7] ""                             "Home"                    ""
[10] "Expertise"                    "QuestionResearchDesign"  ""
[13] "SurveyDevelopmentValidation"  ""                        "DataProcessing"
[16] ""                             "StatisticalAnalysis"     ""
[19] "PublicationsGrants"           ""                        "Evaluation"
[22] ""                             ""                        "ConsultingAreas"
[25] "Business"                     ""                        "Education"
[28] "K12"                          ""                        ""
[31] ""                             ""

score 0 · Accepted Answer

我不确定这是否会消除您想要删除的所有内容......但?regexp描述了您可以使用的各种有趣的广泛类。对于您所描述的，我认为您想要：

 gsub('[[:space:]|[:punct:]]+', '', yourlist)

这使：

 [1] ""                            ""                            ""                            ""                           
 [5] ""                            ""                            ""                            "Home"                       
 [9] ""                            "Expertise"                   "QuestionResearchDesign"      ""                           
[13] "SurveyDevelopmentValidation" ""                            "DataProcessing"              ""                           
[17] "StatisticalAnalysis"         ""                            "PublicationsGrants"          ""                           
[21] "Evaluation"                  ""                            ""                            "ConsultingAreas"            
[25] "Business"                    ""                            "Education"                   "K12"                        
[29] ""                            "Â"                           "ÂÂÂÂ"                        ""

r - 从R中的有序对象集合（列表）中删除非字母数字字符

2 回答 2

Related

Reference