问题标签 [text-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 检查字符串是否是名称的可能缩写
我正在尝试开发一个 python 算法来检查一个字符串是否可以是另一个单词的缩写。例如
fck
是匹配的,fc kopenhavn
因为它匹配单词的第一个字符。fhk
不匹配。fco
不应该匹配fc kopenhavn
,因为没有人会将 FC Kopenhavn 缩写为 FCO。irl
是匹配的in real life
。ifk
是匹配的ifk goteborg
。aik
是匹配的allmanna idrottskluben
。aid
是匹配的allmanna idrottsklubben
。这不是真正的团队名称缩写,但我想很难排除它,除非您应用有关瑞典缩写如何形成的领域特定知识。manu
是匹配的manchester united
。
很难描述算法的确切规则,但我希望我的例子能说明我所追求的。
更新我在显示匹配字母大写的字符串时犯了一个错误。在实际场景中,所有字母都是小写的,所以并不像检查哪些字母是大写那么简单。
nlp - 可以使用除 People、Org 和 Loc 之外的 Lingpipe 提取通用实体吗?
我已经阅读了 Lingpipe for NLP,发现我们有能力识别提到的人名、地点和组织的名称。我的问题是,如果我有一个文档训练集,其中提到了文本中的软件项目,我可以使用这个训练集来训练命名实体识别器吗?训练完成后,我应该能够将一组文本文档的测试集提供给经过训练的模型,并且我应该能够识别那里提到的软件项目。
使用 NER 可以实现这种通用 NER 吗?如果是这样,我应该使用哪些我应该提供的功能?
谢谢阿布舍克 S
nlp - 情绪分析的训练数据
我在哪里可以获得已被归类为企业领域情绪正面/负面的文档语料库?我想要为公司提供评论的大量文档,例如分析师和媒体提供的公司评论。
我发现有产品和电影评论的语料库。是否有与商业语言相匹配的商业领域的语料库,包括对公司的评论?
ruby - Ruby中的简单关键字/关键短语分析
我想在包含特定主题标签的推文中创建一个简单的流行关键字或短语列表。
例如,对于所有带有“#justinbieber”标签的推文,我想获得这些推文中使用的前十个最流行的单词和/或短语的有序列表,忽略通常不相关的内容,例如“and”、“the ',等等。它不必是完美的,只要有意义。
有哪些 Ruby 工具可用于执行文本分析?当然,分析部分不必特定于 Twitter。
我很可能会定期请求和存储带有给定主题标签的推文,然后在给定的时间范围内对推文进行分析。
这项工作将在 Heroku 上的 Rails 或 Sinatra 应用程序中完成,但分析将在 rake 任务或某种计划的工作中完成。我还没有决定如何存储推文。
algorithm - 根据内容优先考虑文本
如果您有一个文本列表和一个对某些主题感兴趣的人,那么处理为给定人选择最相关文本的算法是什么?
我相信这是一个相当复杂的话题,作为答案,我希望有几个方向来研究文本分析、文本统计、人工智能等的各种方法。
谢谢你
java - 避免字典查找的高效 Lemmatizer
我想将'eat'之类的字符串转换为'eating','eats'。我搜索并找到了词形还原作为解决方案,但是我遇到的所有词形还原工具都使用词表或字典查找。是否有任何可以避免字典查找并提供高效率的词形还原器,可能是基于规则的词形还原器。是的,我不是在寻找“词干”。
full-text-search - 在不增加字段数量的情况下使用 lucene 进行精确的短语搜索
对于短语搜索,我们只想在完全匹配的情况下显示结果(不忽略停用词)。如果是非短语搜索,即使单词的根形式匹配等,我们也可以很好地显示结果。
我们目前通过standardTokenizer、StopFilter、PorterStemFilter 和LowerCaseFilter 传递我们的数据。因此,当用户想要搜索“密码管理”时,搜索会显示包含“密码管理”的结果。
如果我删除 StemFilter,那么我将无法匹配非短语查询的词根形式。我在想是否应该将相同的数据索引为文档中两个字段的一部分。
我在同一字段的不同索引和搜索策略中问过同样的问题,而不会使索引大小加倍?. 然而,办公室里的人们对于将相同的数据作为两个字段的一部分进行索引并不高兴。(我们目前在 lucene 文档中有大约 20 个文本字段)。有什么方法可以使用 TokenFilters 来支持我上面列出的两种情况?
比如说,对于 StopFilter,进行更改以使其同时发出输入令牌和 ? (对于忽略的单词)具有相同的位置增量。与 StemFilter 类似,它发出具有相同位置增量的输入标记和词干标记。基本上输入和输出标记(甚至被忽略的标记)具有相同的位置。
继续采用这种方法是否安全?有没有其他人遇到过这里列出的要求?是否有现成的过滤器可以做类似于我在方法中提到的事情?
谢谢
java - 获取标题java库中的重要单词
是否有任何具有给定文本(标题)的 java 库在其中获取重要单词的集合。
已编辑:我所说的重要是指定义了句子主要思想的那个。谢谢你。
artificial-intelligence - 过滤维基百科编辑的更好方法
当您通过其RSS 频道查看特定Wikipedia 文章的新闻时,如果不过滤信息,这很烦人,因为大多数编辑都是垃圾邮件、故意破坏、次要编辑等。
我的方法是创建过滤器。我决定删除所有不包含贡献者昵称但仅由贡献者 IP 地址标识的编辑,因为大多数此类编辑都是垃圾邮件(尽管有一些好的贡献)。使用正则表达式很容易做到这一点。我还删除了包含粗俗和其他典型垃圾邮件关键字的编辑。
你知道一些更好的方法利用算法或启发式正则表达式、人工智能、文本处理技术等吗?该方法应该能够检测到不良帖子(微小的编辑或破坏行为),并且应该能够逐步了解什么是好的/坏的贡献并更新其数据库。
谢谢你
nlp - 分类情绪数据的来源?
我希望用一些以前没有使用过的新数据源来训练一个朴素的贝叶斯。我已经查看了 IMDB 评论的 Lee & Pang 语料库和 MPQA 意见语料库。我正在寻找符合以下标准的新 Web 服务。
- 易于分类 - 必须有喜欢/不喜欢或 5 星评级
- 一应俱全
- 与新材料有关(不如前两个重要)
以下是我自己提出的一些示例。
- Etsy API
- 烂番茄 API
- Yelp API
任何其他建议将不胜感激 =)