问题标签 [natural-language-processing]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python-3.x - 在 python 中删除停用词和标记化
我有以下输入数据,我想从此输入中删除停用词并想做标记化:
我尝试了以下代码,但没有得到想要的结果:
期望输出如下:
python - 自然语言处理中的词向量化
我有一个数据集。该数据集仅包含单词。我必须对这些词进行矢量化。我搜索了词向量算法。Bag of words, word2wec, tf-idf Bag of words, word2wec, tf-idf 正在做向量化句子中的单词的过程。但我没有句子。我只有一句话。那么如何进行向量化单词的过程呢?
nlp - 如何处理神经机器翻译中的名字/未知词?
谁能解释在神经机器翻译中处理未知单词而不是删除它的最佳方法,并知道在句子在任何两种语言之间进行翻译时谷歌翻译如何处理名称?
非常感谢您的回复...谢谢!
nlp - 自然语言处理中的 Unigram vs Bigram vs Posgram
我想知道unigram,bigram和posgram之间的含义和区别。我已经搜索了互联网,但我找不到一个全面的答案。任何帮助将不胜感激。
nlp - 是否有提供购物对话的数据集?
我想创建一个聊天机器人应用程序,但我需要有关用户在电子商务中要求销售或订单的对话数据。
有没有人提供这样的数据集?我发现的所有数据集都提供了与购物领域无关的一般对话。
python - 如何扩展匹配文本输出的 Spacy 跨度以包含所有内容,直到下一次匹配?
我的代码如下所示:
我希望能够抓住一切,直到下一场比赛。所以比赛看起来像这样:
种类:猫
颜色:橙色和白色带黄色斑点
英尺数:4
我试图延长跨度,但我不知道如何在下一场比赛前停止。我知道我可以让它像 span = doc[start:end+4] 或其他东西,但这是硬编码要走多远,我不知道应该扩展索引多远。
谢谢
python - 在python代码中实现n-gram用于多类文本分类
我是 python 新手,致力于建筑行业合同文件的多类文本分类。我在我的代码中实现 n-gram 时遇到了问题,我通过从不同的在线资源获得帮助来生成表单。我想在我的代码中实现 unigram、bi-gram 和 tri-gram。在这方面的任何帮助将不胜感激。
我在我的代码的 Tfidf 部分中尝试了二元组和三元组,但它正在工作。
文件“C:\Users\fhassan\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py”,第 328 行,在 tokenize(preprocess(self.decode(doc))),stop_words)
文件“C:\Users\fhassan\anaconda3\lib\site-packages\sklearn\feature_extraction\text.py”,第 256 行,返回 lambda x: strip_accents(x.lower())
文件“C:\Users\fhassan\anaconda3\lib\site-packages\scipy\sparse\base.py”,第 686 行,在getattr raise AttributeError(attr + " not found")
AttributeError:未找到下限
nlp - 是否可以将现有的英语 NLP 工具改编成瑞典语?什么是最好的方法?
将现有的英语 NLP 工具与另一种语言 ex.spanish 一起使用的最佳方法是什么?
nlp - 使用自然语言处理将命令分解为组件
我想将变量赋值命令转换为代码。例如:“创建一个等于数字 7 的变量 alpha”或“定义一个新变量 alpha 并将其设置为 7”,两者都应转换为:
我计划如何完成这项任务是通过查找字符串中的特定组件(例如变量名和变量值)。一旦我弄清楚变量名是“alpha”并且变量值是“7”,我就可以构造上面看到的代码。但是我将如何通过自然语言处理找到变量名和变量值呢?用户可能会添加额外的单词或省略一些单词(甚至可能颠倒顺序)。