问题标签 [text-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
r - 使用 R Studio 从 CSV 中提取短语
使用 RI 想要获取单个 CSV 并提取最常见的两个和三个单词短语。我一直在搜索 Google 和 Stackoverflow,但找不到一个简单的方法来做到这一点。
我知道如何将 CSV 读入 R,但我还没有找到如何将数据提取到适当的数据类型并执行操作以获得我正在寻找的内容。
要求:
- 从 CSV 中删除所有非字母数字文本
- 使用同义词列表替换单词
- 删除没有意义的词(at、the 等)
- 获取两个单词短语和三个单词短语的常用短语的计数
- 使所有文本小写
此外,哪些数据类型最适合这种类型的分析?数据框?Tm值?语料库?ETC?
提前致谢!
nltk - 在 NLTK 中提取非结构化文本
我尝试了正则表达式词干分析器,但我得到了数百个不相关的标记。我只是对“玩”词干感兴趣。这是我正在使用的代码:
上面的结果是;
我正在尝试清理.txt
文件(全部小写,删除停用词等),将一个单词的多个拼写规范化为一个并进行频率分布/计数。我知道该怎么做FreqDist
,但是关于我在哪里做词干有什么建议吗?
architecture - 实时文本分析是如何发生的
我一直在阅读这个主题,但无法找到正确的信息,我们一直在使用 Twitter Streaming、Datasift 和其他数据推送服务等服务。我想了解以下服务如何工作,
- 每秒收到的推文数量非常高。
- 许多人连接指定他们想要接收推文的关键字,这些可以是复杂的布尔查询。
- 针对所有这些布尔查询实时检查所有推文,然后将数据流式传输到正确的连接。
任何指向正在使用的架构类型的指针都会有所帮助。
solr - Solr/Lucene 句子分析拉出主题
假设我有一个带有自由文本字段的文档,该字段将描述企业所属的分支类型:
示例 1:“专注于医疗保健解决方案的 IT 咨询”
示例 2:“为美国境内的在线客户提供财务建议”
我想对 Solr 或 Lucene 进行的操作是提取文本中描述的业务操作分类,并考虑潜在的同义词。所以第一个例子变成了这样的图:信息技术 <-[in]- Consulting -[on]-> HeathCare
示例 2 是:财务 <-[in]- 咨询
咨询或建议等操作是同义词,具体取决于上下文。
ruby - Ruby 文本/情感分析
我有两个字符串 -
"I like running around the track.
I like swimming in the pool, but only in the morning.
我需要从以上两条评论(running around the track
和swimming in the pool
.
有没有人推荐文本分析 gem 或其他获取此类信息的方法?我不一定需要字数或 n-gram,我只想知道与单词“ like
”相关的单词。
r - 在 R 中使用 tm 包获取关键字计数
我正在尝试使用 R“tm”包计算我的语料库中的关键字。到目前为止,这是我的代码:
这将返回一个表格,其中包含天气的二进制结果,关键字是否出现在一个语料库文本中。我不想以二进制形式获得最终结果,而是想获得每个关键字的计数。例如:'car' 出现 5 次 'button' 出现 9 次
twitter - R包推特分析推文文本
我正在使用 TwitteR 包(特别是searchTwitter
函数)以某种csv
格式导出包含特定主题标签的所有推文。
我想分析他们的文本并发现其中有多少包含我刚刚保存在一个名为importantwords.txt
.
我怎样才能创建一个函数,它可以返回多少条推文包含我在文件中写的单词的分数importantwords.txt
?
ruby - 从英文文本中获取所有单词和标点符号
我想做的事:
用户加载文本。我分析它并从中获取所有单词和标点符号。现在,我可以通过快速翻译每个单词或分析单词的附加信息,轻松地为其他用户呈现文本。
现在我正在尝试使用treat gem(NLP for ruby),但它有很多问题。
例如在句子
“世界不全是阳光和彩虹。”
它将 ain't 分为两个词“ai”和“n't”
任何人都可以建议一些库或gem,也许我可以用jruby实现,我可以在没有问题的情况下用单词和标点符号分隔文本。
或者 mb 我的想法错了,还有其他方法吗?
ruby - NLP 对句子内容进行分类/标记(Ruby binding necesarry)
我正在分析几百万封电子邮件。我的目标是能够将其分类。组可以是例如:
- 交货问题(交货缓慢、发货前处理缓慢、可用性信息不正确等)
- 客户服务问题(邮件回复时间慢、回复不礼貌等)
- 退货问题(退货请求处理缓慢、客户服务缺乏帮助等)
- 定价投诉(发现隐藏费用等)
为了执行这种分类,我需要一个可以识别词组组合的 NLP,例如:
- “[他们|公司|公司|网站|商家]”
- “[没有|没有|没有]”
- “[回复|回复|回答|回复]”
- “[在第二天之前|足够快|完全]”
- 等等
这些示例组中的一些组合应该匹配以下句子:
- “他们没有回应”
- “他们根本没有反应”
- “根本没有回应”
- “我没有收到网站的回复”
然后将句子归类为客户服务问题。
哪个 NLP 能够处理这样的任务?从我读到的这些是最相关的:
- 斯坦福 CoreNLP
- 开放式自然语言处理
还要检查这些建议的 NLP 的。
python - 在亚马逊 EC2 或其他服务器上运行 python 脚本
我正在使用 python 进行一个项目,该项目开始使我的低端 Windows 笔记本电脑不堪重负,我想就如何找到我认为需要的额外计算能力征求意见。
以下是关于我的项目的一些细节: 我正在处理和分析一个相当大的网络文本数据库。大约 10,000 个文件,每个文件平均相当于大约 500 个单词左右(尽管围绕这个平均值存在很大差异)。第一步是提取某些关键短语并使用 GenSim 进行相当简单的相似性分析。这需要我的电脑一段时间,但如果我很温柔,它可以处理它。其次,一旦我确定了候选者的简短列表,我就会对每个候选文档进行指纹识别,以更密切地评估相似性。每个文件都需要对 2-10 个其他文件进行指纹识别和比较 - 所以它并不是真正的 n 对 n 比较,我认为不需要几个月的计算机时间。
这是我的计算机开始挣扎的第二步。我正在考虑在 EC2 环境中运行脚本,但是当我开始在这里阅读有关该脚本的内容时,我看到了一条评论,大意是有效地这样做需要 linux sys 管理员级别的复杂性——我离那个级别还差得很远与本网站的任何成员一样复杂。
那么还有其他选择吗?或者在 ES2 上运行一个相当简单的 python 脚本并不难。
看起来最耗费资源的脚本部分如下所示。对于每个文本文件,它通过根据 PossDupes_1 中的标准(两者都是列表)从 amdt_word_bags trim 中选择某些文本文件来创建指纹列表。它使用我在这里找到的指纹生成器模块:https ://github.com/kailashbuki/fingerprint 。