我有一些 JS 函数可以帮助我使用 Wink Tokenizer 标记我的字符串。
我正在将一些服务转移到 Python,现在我想获得一个等效的标记器函数。我进行了很多研究,似乎 Wink 标记器仅适用于 JS。我也不太了解 Wink 和其他 Python 标记器(例如 spaCY)之间的细微差别。
基本上我希望能够得到与以下相同的结果:
var tokenizer = require( 'wink-tokenizer' );
// Create it's instance.
var myTokenizer = tokenizer();
// Tokenize a tweet.
var s = '@superman: hit me up on my email r2d2@gmail.com, 2 of us plan party tom at 3pm:) #fun';
myTokenizer.tokenize( s );
在 Python 上
任何人都可以通过指出我如何继续复制 Wink 在 Python 上提供的标记化功能的正确方向来帮助我吗?我必须检查哪些参数、配置、正则表达式才能获得等效的行为?