问题标签 [nltokenizer]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 在给定的组合名称标记字符串中识别印度名称
我确实有一组不同的名称标记以及组合不同名称的数据。例如。如果该名称有 3 个标记,如“abc def ghi”并给出名称“abcdef”或“abcdefghi”,我想识别该组合名称字符串的不同有效标记。我们可以构建一个名称标记字典并使用一些 NLP 技术或 python 库来实现这一点吗?请就如何开始提供您的意见。
python - 模块“tensorflow_datasets.core.features”没有属性“文本”
大家好,我正在使用 Tensorflow 开发情绪分析,使用基于亚马逊电子产品的一些评论。在代码中,我遇到了一个错误。我使用 tensorflow 数据集来检索一些文本,但无法检索。这是代码的一部分,包含以下错误:
我从这里得到的错误是属性错误
请问我该如何解决这个错误?谢谢
bert-language-model - 找不到我添加到 Huggingface Bert 分词器词汇表中的单词
我试图在Bert tokenizer vocab
. 我看到词汇的长度在增加,但是我在词汇中找不到新添加的单词。
输出:
cocoa - 当文本以 Unicode“其他符号”开头后跟单词时,NLTokenizer 无法枚举单词
我试图在 Cocoa 应用程序中将字符串标记为单词,但遇到了NLTokenizer
.
当输入字符串以 Unicode 类别“Other Symbol”或“Specials”块中的符号开头时,如NSTextAttachment.character
,标记化失败(即返回空列表)。
仅当符号后面直接跟不带空格的单词时才会出现此问题(请参见下面的示例)。
用例:
我有一个NSAttributedString
可以包含文本中任何位置的图像。这些在内部由对象替换字符 (U+FFFC) 表示。如果文档以图像开头,后跟一个单词而不是空格,则标记化失败。
重现:
系统:
- macOS Catalina 10.15.7 (19H2)
- Xcode 12.4 (12D4e)
python - 创建自定义标记器
我必须使用创建自定义标记器CountVectorizer()
,它将执行以下操作:
- 使用 nltk 中的 word_tokenizer 将文本拆分为标记
- 删除带有标点符号、数字和标记的标记
nltk.corpus.stopwords('russian')
- 冲压
SnowballStemmer
是否可以仅通过更改参数来完成此任务CountVectorizer
?
我想创建一个字典,但我认为有一种方法可以使它更容易。
我的尝试: