问题标签 [nltokenizer]

问问题

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

7 问题

0 投票

2 回答

209 浏览

ios - 在 Swift 中显示 NLTokenizer 的索引、标记

我正在使用 NLTokenizer 在 Swift Playground 中显示令牌列表。

如何在标记之前显示索引号？

像：

ios swift nltokenizer

2019-12-04T05:12:08.743

0 投票

1 回答

109 浏览

python-3.x - 在给定的组合名称标记字符串中识别印度名称

我确实有一组不同的名称标记以及组合不同名称的数据。例如。如果该名称有 3 个标记，如“abc def ghi”并给出名称“abcdef”或“abcdefghi”，我想识别该组合名称字符串的不同有效标记。我们可以构建一个名称标记字典并使用一些 NLP 技术或 python 库来实现这一点吗？请就如何开始提供您的意见。

python-3.x nlp nltokenizer

2020-01-31T06:40:54.403

0 投票

2 回答

3904 浏览

python - Python 错误：TypeError：预期的字符串或类似字节的对象

我目前正在使用 python 中的 nltk 进行情绪分析项目。我无法让我的脚本从我的 csv 中传递文本行来执行标记化。但是，如果我一次在一个条目中传递文本，它就可以正常工作。当我尝试传入整个 csv 时，我收到一个持久性错误：'TypeError: expected string or bytes-like object'。这是我正在使用的打印数据框和 python 代码。解决此问题的任何帮助都会很棒。

附件是完整的堆栈跟踪错误。编辑：打印声明

编辑：输出

python nltk typeerror sentiment-analysis nltokenizer

2020-03-17T13:14:34.417

0 投票

1 回答

2355 浏览

python - 模块“tensorflow_datasets.core.features”没有属性“文本”

大家好，我正在使用 Tensorflow 开发情绪分析，使用基于亚马逊电子产品的一些评论。在代码中，我遇到了一个错误。我使用 tensorflow 数据集来检索一些文本，但无法检索。这是代码的一部分，包含以下错误：

我从这里得到的错误是属性错误

请问我该如何解决这个错误？谢谢

python tensorflow keras tensorflow-datasets nltokenizer

2020-12-21T17:09:46.350

0 投票

1 回答

619 浏览

bert-language-model - 找不到我添加到 Huggingface Bert 分词器词汇表中的单词

我试图在Bert tokenizer vocab. 我看到词汇的长度在增加，但是我在词汇中找不到新添加的单词。

输出：

bert-language-model huggingface-transformers nltokenizer

2020-12-24T15:03:02.270

0 投票

0 回答

54 浏览

cocoa - 当文本以 Unicode“其他符号”开头后跟单词时，NLTokenizer 无法枚举单词

我试图在 Cocoa 应用程序中将字符串标记为单词，但遇到了NLTokenizer.

当输入字符串以 Unicode 类别“Other Symbol”或“Specials”块中的符号开头时，如NSTextAttachment.character，标记化失败（即返回空列表）。

仅当符号后面直接跟不带空格的单词时才会出现此问题（请参见下面的示例）。

用例：

我有一个NSAttributedString可以包含文本中任何位置的图像。这些在内部由对象替换字符 (U+FFFC) 表示。如果文档以图像开头，后跟一个单词而不是空格，则标记化失败。

重现：

系统：

macOS Catalina 10.15.7 (19H2)
Xcode 12.4 (12D4e)

cocoa nltokenizer

2021-04-12T11:13:45.883

0 投票

0 回答

72 浏览

python - 创建自定义标记器

我必须使用创建自定义标记器CountVectorizer()，它将执行以下操作：

使用 nltk 中的 word_tokenizer 将文本拆分为标记
删除带有标点符号、数字和标记的标记nltk.corpus.stopwords('russian')
冲压SnowballStemmer

是否可以仅通过更改参数来完成此任务CountVectorizer？

我想创建一个字典，但我认为有一种方法可以使它更容易。

我的尝试：

python tokenize countvectorizer nltokenizer snowball-stemmer

2021-04-15T21:15:39.053

1 2 3 4 5 6 7 8 9 10