我知道这个问题已经在这里和这里被问过,但是当我尝试它时出现了一个小问题:
x<- str_extract("Hello peopllz! My new home is #crazy gr8! #wow", "#\S+")
Error: '\S' is an unrecognized escape in character string starting "#\S"
我将正则表达式更改为"#(.+) ?"
, "#\\s"
,但他们没有提取主题标签。
然后我尝试了 gsub 方式:
x<- gsub("[^#(.+) ?]","","Hello! #London is gr8. #Wow")
它给出了:" # . #"
有什么想法我哪里出错了吗?我希望我的输出作为推文中所有主题标签的向量/列表(没有哈希!)
编辑:我不希望对推文进行标记,因为:1. 我没有为我的程序的其余部分标记推文,2. 如果我将其扩展以处理大量推文,这将成为一个非常昂贵的步骤。