0

我有一些 JS 函数可以帮助我使用 Wink Tokenizer 标记我的字符串。

我正在将一些服务转移到 Python,现在我想获得一个等效的标记器函数。我进行了很多研究,似乎 Wink 标记器仅适用于 JS。我也不太了解 Wink 和其他 Python 标记器(例如 spaCY)之间的细微差别。

基本上我希望能够得到与以下相同的结果:

var tokenizer = require( 'wink-tokenizer' );
// Create it's instance.
var myTokenizer = tokenizer();
 
// Tokenize a tweet.
var s = '@superman: hit me up on my email r2d2@gmail.com, 2 of us plan party tom at 3pm:) #fun';
myTokenizer.tokenize( s );

在 Python 上

任何人都可以通过指出我如何继续复制 Wink 在 Python 上提供的标记化功能的正确方向来帮助我吗?我必须检查哪些参数、配置、正则表达式才能获得等效的行为?

4

1 回答 1

0

有很多方法。Python 拥有丰富的数据科学社区。有许多 NLP 包。以下是易于实现的文本标记方法的合理列表:

https://towardsdatascience.com/5-simple-ways-to-tokenize-text-in-python-92c6804edfc4

我个人使用https://github.com/stanfordnlp/stanza

所有这些资源都在谷歌的第一页上"python" "tokenization"

于 2022-01-21T19:53:05.903 回答