问题标签 [text-mining]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
nlp - 自然语言/文本挖掘和 Reddit/社会新闻网站
我认为有大量与 reddit、digg 或 news.google.com 等网站相关的自然语言数据。
我对文本挖掘进行了一些研究,但找不到如何使用这些工具来解析 reddit 之类的东西。
你能想出什么样的应用程序?
c# - C# 情绪分析
有谁知道(最好是开源的)C# 库,可以用来计算某些给定文本的整体情绪?
html-parsing - 从网页中提取意义的全部内容
我正在通过使用我的爬虫挖掘网页内容来进行一些分析。网页通常在文章正文周围包含杂乱无章的内容(例如广告、不必要的图像和无关链接),这会分散用户对实际内容的注意力。
考虑到没有标准来定义新闻故事/博客文章/论坛评论/文章在网页中的实际位置,据我了解,提取有意义的内容是一个难题。
我可以找到一些像这样的开源解决方案:https ://metacpan.org/pod/HTML::ContentExtractor
但我很好奇是否有人处理过这个问题并获得了合理的成功率。这似乎是一个相当普遍的问题,我相信很多专家都在那里。我更喜欢基于 JAVA 的解决方案,但这不是硬性规定。请提供一些意见。我将深深感激。
nlp - Crawling The Internet
I want to crawl for specific things. Specifically events that are taking place like concerts, movies, art gallery openings, etc, etc. Anything that one might spend time going to.
How do I implement a crawler?
I have heard of Grub (grub.org -> Wikia) and Heritix (http://crawler.archive.org/)
Are there others?
What opinions does everyone have?
-Jason
algorithm - 最好的聚类算法?(简单解释)
想象以下问题:
- 您有一个包含大约 20,000 条文本的数据库,表中名为“articles”
- 您想使用聚类算法连接相关文章,以便一起显示相关文章
- 该算法应该进行平面聚类(不是分层的)
- 相关文章应插入“相关”表中
- 聚类算法应根据文本判断两篇或多篇文章是否相关
- 我想用 PHP 编写代码,但使用伪代码或其他编程语言的示例也可以
我用函数 check() 编写了初稿,如果两个输入文章相关,则给出“true”,否则给出“false”。其余的代码(从数据库中选择文章,选择要比较的文章,插入相关的文章)也是完整的。也许您也可以改进其余部分。但对我来说重要的要点是函数 check()。因此,如果您可以发布一些改进或完全不同的方法,那就太好了。
方法 1
方法 2 [仅检查()]
我还想说,我知道有很多聚类算法,但是在每个站点上只有数学描述,这对我来说有点难以理解。所以(伪)代码中的编码示例会很棒。
我希望你能帮助我。提前致谢!
java - 在 JAVA 中使用哪个 NLP 工具包?
我正在开展一个项目,该项目由一个连接到 NCBI(国家生物技术信息中心)并在那里搜索文章的网站组成。问题是我必须对所有结果进行一些文本挖掘。我正在使用 JAVA 语言进行文本挖掘,并使用带有 ICEFACES 的 AJAX 来开发网站。我有什么:从搜索返回的文章列表。每篇文章都有一个 ID 和一个摘要。这个想法是从每个抽象文本中获取关键字。然后比较所有摘要中的所有关键词,找出重复次数最多的关键词。然后在网站上显示搜索的相关词。有任何想法吗 ?我在网上搜索了很多,我知道有命名实体识别,词性标记,基因和蛋白质上有 NER 的 GENIA 词库,我已经尝试过词干... 停用词列表等...我只需要知道解决此问题的最佳方法。非常感谢。
tagging - 自动文档标记相关
我开始从事一个项目,在该项目中我必须用关键字标记文档,如果您手动操作(特别是如果您有数千个文档),这真的很难而且很耗时。所以我打算自动化这个过程(知道结果不会完美,但至少它会给你一些建议的标签)。在最新的 Firefox 版本中,他们实现了这样的系统(当您为页面添加书签时,它会建议您一些标签)。
雅虎术语提取服务也是一个很好的例子
因此,如果任何机构可以帮助我解决这个问题,我将非常感谢您的帮助。或者,如果有人知道 Firefox 标记系统,那么一点帮助会很棒。
data-mining - 如何预测函数名称是否遵循约定
假设您有一个包含 10,000 个函数名称的存储库,并且可能在 C/C#/C++ 中的代码语料库中使用它们的频率。(它们通常有不同的约定)
一些样本可能是:
现在给定一个函数名称,我们如何预测该名称是否符合 Human Generated Name 的约定?
笔记:
- 显然,所有候选名称都是有效名称
- 生成的名称可以包含任意字符,将被视为错误
- 信箱可能会出现乱码
部分候选人:
欢迎任何关于技术和软件的指点
parsing - 解析草率/古怪/“几乎结构化”数据的背景阅读?
我正在维护一个程序,该程序需要解析以文本中“几乎结构化”形式存在的数据。即产生它的各种程序使用稍微不同的格式,它可能已经被打印出来并且OCR'd返回(是的,我知道)有错误等等,所以我需要使用启发式来猜测它是如何产生的并应用不同的怪癖模式等令人沮丧,因为如果事情表现良好,我对解析的理论和实践有点熟悉,并且那里有很好的解析框架等,但是数据的不可靠性导致我写了一些非常邋遢的临时代码。目前还可以,但我担心当我扩展它以处理更多变化和更复杂的数据时,事情会失控。所以我的问题是:
由于有相当数量的现有商业产品可以做相关的事情(网络浏览器中的“怪癖模式”、编译器中的错误解释,甚至自然语言处理和数据挖掘等),我相信一些聪明的人已经考虑过这个,并试图发展一个理论,那么以尽可能有原则的方式解析无原则数据的背景阅读的最佳来源是什么?
我意识到这有点开放,但我的问题是我认为我需要更多的背景知识才能知道要问的正确问题是什么。
.net - 如何确定文档的(自然)语言?
我有一套两种语言的文件:英语和德语。这些文档没有可用的元信息,程序只能查看内容。基于此,程序必须决定文档是用两种语言中的哪一种编写的。
对于这个问题,有没有可以在几个小时内实现的“标准”算法?或者,一个可以做到这一点的免费 .NET 库或工具包?我知道LingPipe,但它是
- 爪哇
- “半商业”使用不是免费的
这个问题似乎出奇的难。我检查了Google AJAX 语言 API(我首先通过搜索这个站点找到了它),但它非常糟糕。对于我指出的六个德语网页,只有一个猜测是正确的。其他猜测是瑞典语、英语、丹麦语和法语……
我想出的一个简单方法是使用停用词列表。我的应用程序已经使用这样的德语文档列表,以便使用 Lucene.Net 分析它们。如果我的应用程序扫描文档以查找任何一种语言中出现的停用词,那么出现次数较多的将获胜。可以肯定的是,这是一种非常幼稚的方法,但它可能已经足够好了。不幸的是,我没有时间成为自然语言处理方面的专家,尽管这是一个有趣的话题。