问题标签 [nltokenizer]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
2 回答
209 浏览

ios - 在 Swift 中显示 NLTokenizer 的索引、标记

我正在使用 NLTokenizer 在 Swift Playground 中显示令牌列表。

在此处输入图像描述

如何在标记之前显示索引号?

像:

0 投票
1 回答
109 浏览

python-3.x - 在给定的组合名称标记字符串中识别印度名称

我确实有一组不同的名称标记以及组合不同名称的数据。例如。如果该名称有 3 个标记,如“abc def ghi”并给出名称“abcdef”或“abcdefghi”,我想识别该组合名称字符串的不同有效标记。我们可以构建一个名称标记字典并使用一些 NLP 技术或 python 库来实现这一点吗?请就如何开始提供您的意见。

0 投票
2 回答
3904 浏览

python - Python 错误:TypeError:预期的字符串或类似字节的对象

我目前正在使用 python 中的 nltk 进行情绪分析项目。我无法让我的脚本从我的 csv 中传递文本行来执行标记化。但是,如果我一次在一个条目中传递文本,它就可以正常工作。当我尝试传入整个 csv 时,我收到一个持久性错误:'TypeError: expected string or bytes-like object'。这是我正在使用的打印数据框和 python 代码。解决此问题的任何帮助都会很棒。

附件是完整的堆栈跟踪错误。编辑:打印声明

在此处输入图像描述

编辑:输出

在此处输入图像描述

0 投票
1 回答
2355 浏览

python - 模块“tensorflow_datasets.core.features”没有属性“文本”

大家好,我正在使用 Tensorflow 开发情绪分析,使用基于亚马逊电子产品的一些评论。在代码中,我遇到了一个错误。我使用 tensorflow 数据集来检索一些文本,但无法检索。这是代码的一部分,包含以下错误:

我从这里得到的错误是属性错误

请问我该如何解决这个错误?谢谢

0 投票
1 回答
619 浏览

bert-language-model - 找不到我添加到 Huggingface Bert 分词器词汇表中的单词

我试图在Bert tokenizer vocab. 我看到词汇的长度在增加,但是我在词汇中找不到新添加的单词。

输出:

0 投票
0 回答
54 浏览

cocoa - 当文本以 Unicode“其他符号”开头后跟单词时,NLTokenizer 无法枚举单词

我试图在 Cocoa 应用程序中将字符串标记为单词,但遇到了NLTokenizer.

当输入字符串以 Unicode 类别“Other Symbol”或“Specials”块中的符号开头时,如NSTextAttachment.character,标记化失败(即返回空列表)。

仅当符号后面直接跟不带空格的单词时才会出现此问题(请参见下面的示例)。

用例:

我有一个NSAttributedString可以包含文本中任何位置的图像。这些在内部由对象替换字符 (U+FFFC) 表示。如果文档以图像开头,后跟一个单词而不是空格,则标记化失败。

重现:

系统:

  • macOS Catalina 10.15.7 (19H2)
  • Xcode 12.4 (12D4e)
0 投票
0 回答
72 浏览

python - 创建自定义标记器

我必须使用创建自定义标记器CountVectorizer(),它将执行以下操作:

  1. 使用 nltk 中的 word_tokenizer 将文本拆分为标记
  2. 删除带有标点符号、数字和标记的标记nltk.corpus.stopwords('russian')
  3. 冲压SnowballStemmer

是否可以仅通过更改参数来完成此任务CountVectorizer

我想创建一个字典,但我认为有一种方法可以使它更容易。

我的尝试: