我有一些文本文档,其中包含:
- 不同类型的电子邮件地址:我指的是公共域,例如gmail、yahoo等,以及私人电子邮件,例如abc@mycompany.org ...
- 不同的超链接,例如abc.com、http ://abc.com、www.abc.org、 ...
所以,我想知道我是否可以编写一个正则表达式命令来从我的文档中删除所有此类条目以进行进一步处理,如果可以,请分享一些链接、文档或任何有用的东西。我希望使用 regex 函数从文档中删除任何类型的电子邮件 ID 或超链接。我将在 R 中实现正则表达式代码。因为,我是这个领域的新手,所以任何详细的解释都将受到高度赞赏。
所以,如果我输入如下:
“abc@mycompany.org aasd234bc.com 将保留http://abc.com www.abc.org org com .com comm in sahgo234@flkja23.in”
然后我应该得到输出:
“被保留 org com comm in”