问题标签 [natural-language-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 删除具有反转单词的重复二元组
我有以下字典:
您可以看到,在索引 2 和 3 处,每个单词都有相同的单词,我需要删除其中一个,建议删除无意义的单词。
我正在颠倒这句话,稍后我将通过检查两个是否匹配来删除一个。但如果单词更多,它的复杂性可能会很高。
如果有人知道有效的方法,请帮助我。
python - 如何计算 Word2Vec 训练模型中的词频?
我需要计算word2vec
训练模型中每个单词的频率。我想要这样的输出:
有可能这样做吗?我如何从 word2vec 中获取这些数据?
tfidfvectorizer - 如何解释 TfidfVectorizer 输出
我正在做情感分析和从文本生成特征,我正在使用 TF-IDF 方法,但我无法解释输出。
我使用了 Sklearn 的 TfidfVectorizer 函数。
我使用了以下代码:
从 sklearn.feature_extraction.text 导入 TfidfVectorizer tfidf_vectorizer = TfidfVectorizer(max_df=0.90, min_df=2, max_features=1000, stop_words='english') tfidf = tfidf_vectorizer.fit_transform(combi['tidy_tweet'])
输出如下:
(0, 302) 0.46871135687055143 (0, 463) 0.5896490179849546 (0, 738) 0.6577413621857342 (1, 879) 0.3938403468675415 (1, 131) 0.6145629375807904 (1, 600) 0.6835218920644196 (2, 79) 1.0 (3, 557) 0.7040384885805177 (3 , 518) 0.44016705593507854 (3, 888) 0.5572995329862621 (4, 566) 1.0 (5, 423) 0.586120951905663 (5, 858) 0.4743403266916206 (5, 69) 0.4637175931713698 (5, 485) 0.4652198168550412 (6, 121) 0.809676118019697 (6, 894 ) 0.5868769751051355 (7, 749) 0.47546741144240784 (7, 992) 0.40382612331421974 (7, 283) 0.6221668428341786 (7, 883) 0.20713435439054187 (7, 393) 0.22953868678391207 (7, 432) 0.29836739781603
我可以理解最后一列是 TF-IDF 值,但其他列是什么。
php - 自然语言实体提取
我有一个需要标记实体的文本。
例子:
大卫专攻双相情感障碍,在加州大学机构工作。
我有一个表,所有实体都在一个表中,称为实体,表包含 100 万条记录。
当然,我会编写并扫描每一个以找到实体,但问题是性能。
从表格列表中识别双相情感障碍和加利福尼亚大学等实体的最佳方法是什么。
python-3.x - SPACY NLP中如何进行语料库预处理、词形还原和向量化?
我正在尝试使用 spaCy 对 Jupyter Notebook(Python 3)上的文件夹(带有 .txt 文件)进行标记化、词形还原和矢量化。
以下是我尝试编写的代码,但我可能犯了一个错误。我希望整个文件夹被标记化、词形化和矢量化(不是任何特定的 .txt 文件,而是它的大部分组合)。
我希望代码行能够对文件夹(具有大量 .txt 文件)执行文本矢量化、词形还原和语料库预处理。你能帮我写实现这一目标所需的代码吗?另外,让我知道在进入聚类分析之前是否应该做更多的事情(除了 Vec、Tok 和 Lemm)?
lstm - When to use RNN or LSTM
What is the difference between RNNs and LSTMs and when do we use either of these models?
word2vec - word2vec 模型可以用于单词也可以作为训练数据而不是句子
在 Word2vec 中我们可以使用单词而不是句子进行模型训练吗
像下面的代码 gberg_sents 是句子标记模型 = Word2Vec(sentences=gberg_sents,size=64,sg=1,window=10,min_count=5,seed=42,workers=8)
像这样我们也可以使用单词标记吗
r - How can I train the word2vec model on my own corpus in R?
I would like to train the word2vec model on my own corpus using the rword2vec
package in R.
The word2vec
function that is used to train the model requires a train_file
. The package's documentation in R simply notes that this is the training text data, but doesn't specify how it can be created.
The training data used in the example on GitHub can be downloaded here: http://mattmahoney.net/dc/text8.zip. I can't figure out what type of file it is.
I've looked through the README file on the rword2vec GitHub page and checked out the official word2vec page on Google Code.
My corpus is a .csv
file with about 68,000 documents. File size is roughly 300MB. I realize that training the model on a corpus of this size might take a long time (or be infeasible), but I'm willing to train it on a subset of the corpus. I just don't know how to create the train_file
required by the function.
python - 如何正确更新 spaCy 中的模型?
我想用新实体更新模型。我正在加载“pt”NER 模型,并尝试更新它。在做任何事情之前,我尝试了这句话:“meu nome é Mário e hoje eu vou para academia”。(在英语中,这句话是“我的名字是马里奥,今天我要去健身房)。在整个过程之前,我得到了这个:
好的,马里奥是一个名字,它是正确的。但我希望模型将“hoje(今天)”识别为 DATE,然后我运行下面的脚本。
运行脚本后,我尝试了相同的设置并得到了这个:
该模型将“hoje”识别为 DATE,但完全忘记了 Mário 为 Person。
machine-learning - 文档重复性算法
我有一组在 2 个不同时间段编写的文件。有一种迹象表明,第一期写的文件比第二期的文件更简洁。它们都是关于同一主题的。
我唯一能想到的是使用 LZW 算法并采用压缩/原始的比率来计算文档的一种简洁性。
我希望结果是:
- 文档 1 - 重复性指数或百分比 = 25% 或类似指标。之后,我将使用重复性指数创建一个不同时期的文档数据框,并进行统计测试以查看统计显着性。