“natural-language-processing”的相关标签问题

0 投票

1 回答

9270 浏览

machine-learning - NLP 预训练模型（例如 ELMo、Bert）的数据预处理

我计划根据手头的数据（人们输入的笔记）从头开始训练 ELMo 或 Bert 模型。我现在拥有的数据都是由不同的人输入的。句子中存在拼写、格式和不一致的问题。在阅读了 ELMo 和 Bert 论文后，我知道这两个模型都使用了很多类似 Wikipedia 的句子。我找不到任何已处理的训练样本或任何用于 Emlo 或 Bert 模型的预处理教程。我的问题是：

Bert 和 ELMo 模型是否具有标准数据预处理步骤或标准处理数据格式？
根据我现有的脏数据，有什么方法可以预处理这些数据，使生成的单词表示更准确？

2019-03-01T06:03:24.240

0 投票

0 回答

544 浏览

python - 无法在 python 3.0 中安装 textacy

我正在尝试安装 textacy 来执行 NLP 任务，但在尝试执行时出错：

点安装文本

在 Anaconda 提示符下。我得到的错误是

错误：需要 Microsoft Visual C++ 14.0。使用“Microsoft Visual C++ 构建工具”获取它：https ://visualstudio.microsoft.com/downloads/

请建议如何克服这个问题，因为我在许多其他 python 库中也面临同样的问题。

python nlp anaconda natural-language-processing textacy

2019-03-02T04:19:57.510

0 投票

3 回答

428 浏览

python - 超越关键字依赖的文本分类并推断实际含义

我正在尝试开发一个文本分类器，它将一段文本分类为Private或Public。以医疗或健康信息为例。我能想到的典型分类器将关键字视为主要区分器，对吗？像下面这样的场景呢？如果两段文本都包含相似的关键字但具有不同的含义怎么办？

以下一段文字揭示了某人的私人（健康）状况（患者患有癌症）：

我去过两个clinics和我的pcp。我ultrasound只有一个被告知它是一个解决方案cyst或一个hematoma，但它变得越来越大并且开始使我的腿ache。PCP说它不可能是cyst因为它开始太大了，我发誓我从来没有我injured的腿，甚至没有bump。我现在又害怕又害怕cancer。大约 9 个月前，我只有在蹲下时才注意到一种轻微的不适感。3个月前，我蹲下来收拾衣物，这有点像hurt。这pain促使我检查我的leg，那是当我注意到lump我的小腿底部有一个muscle并且弯曲只会让它更加明显。最终经过四次clinic访问，一个ultrasound和一个pcp结果似乎是积极的，而且质量越来越大。
[私人]（正确分类）

以下文字是医生的评论，绝对没有透露健康状况。它介绍了典型分类器模型的弱点：

不要害怕，也不要假设有什么不好的cancer。我经历过几个案例，对我clinic来说似乎很熟悉。正如您所提到的，它可能是 acyst或 ahematoma并且它越来越大，它必须需要一些额外的东西diagnosis，例如biopsy. 在那个区域有一个ache或的大小lump并不能说明任何事情bad。您应该clinics多访问几次专业并进行一些特定的测试，例如,biopsy和在此之前变得更大。[私人]（这是错误的分类。应该是[公共]）CT scanpcpultrasoundlump

出于显而易见的原因，我目前所有的分类器都将第二段归类为私有。相似的关键词、有效的词序列、主题的存在似乎让分类器非常混乱。甚至，这两个内容都包含诸如I，You（名词，代词）等主题。我从 Word2Vec 到 Doc2Vec，从推断含义到语义嵌入，但想不出最适合这个问题的解决方法。

任何想法，我应该以哪种方式处理分类问题？提前致谢。

迄今为止的进展：
我从公共来源收集的数据，患者/受害者通常会发布自己的情况，医生/好心人会回复这些数据。我假设在爬行时 - 帖子属于我的私人课程，评论属于公共课程。总的来说，我从 5K+5K 的帖子/评论开始，并在没有任何主要预处理的情况下使用朴素贝叶斯分类器获得了大约 60%。我很快就会尝试神经网络。但在输入任何分类器之前，我只想知道如何更好地进行预处理，以便为任一类赋予合理的权重，以便更好地区分。

python nlp text-classification natural-language-processing

2019-03-04T22:00:24.150

0 投票

1 回答

813 浏览