如何在保留主题标签 (#xxx)、网址 (@xxxx) 和提及 (@xxx) 的情况下从推文中删除非英语标签?我在这里找到了: content.replaceAll("\W", " ") :从 Java 中的字符串中删除所有非“单词字符”,留下重音字符?,但它并没有真正帮助。我知道有很多语言检测工具,比如微软的,以及其他复杂的方法,但我想要一些正则表达式,或者我可以在 JAVA 中使用的方法,而无需外部资源(如字典)。这是推文的一个示例:“Meeeeeee!RT @missLOVElace_:谁想要我的 80,000 条推文?”
如果 JAVA 中有可以检测推文是否为非英语语言的方法,那就太好了。这里有一个类似的:http: //babel-fett.heroku.com/ ,但它是用 Ruby 编写的。
谢谢!