问题标签 [text-analysis]

For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.

0 投票
1 回答
815 浏览

string - 比较Java中的字符串接近度

在 Google 和 StackOverflow 中搜索后,我找不到任何关于 Java 中字符串接近度比较的资源,我只找到关于 == 和 equals 之间差异的结果......

你们中有人知道任何允许比较两个字符串之间的“接近度”并给出接近度百分比的库吗?

例子: 酒吧很近, 很不一样

这个想法是能够将用户编写的城市与我数据库中的城市进行比较,以避免重复数据。例如,如果用户写“NewYork”,我可以告诉他“你的意思是“New-York”吗?

非常感谢 :)

0 投票
1 回答
2463 浏览

java - 从 Tika 获取 Word 和 PDF 的段落计数

我有一个场景,我需要协调两个文档,一个 Word (.docx) 文档以及一个 PDF。两者应该是“相同的”(PDF 只是 DOCX 文件的 PDF 版本);意味着它们应该包含相同的文本、内容等。

具体来说,我需要确保两个文档包含相同数量的段落。所以我需要阅读 DOCX,获取段落数,然后阅读 PDF 并获取其段落数。如果两个数字相同,那么我在做生意。

看起来 Apache Tika(我对 1.3 感兴趣)是适合这里工作的工具。我在这个源文件中看到 Tika 支持段落计数的概念,但试图弄清楚如何从两个文档中获取计数。这是我最好的尝试,但我对连接一些最后的点感到窒息:

所以我问:我是否正确设置了这个,还是我离基地很远?如果偏离基地,请给我一些帮助,让我回到正轨。如果我设置正确,那么如何从两个Metadata实例中获得所需的计数?提前致谢。

0 投票
3 回答
2430 浏览

java - 抓取字符串中的单词和字符数

我正在尝试编写一个超高效的方法,它在两种“模式”(WORDCHARACTER)下运行,它接受一个字符串并告诉我其中的单词数(由 1+ 个空格分隔)或字符(非空格字符):

知道我可以WORD使用以下方式完成模式版本StringTokenizer

但我完全不知道该CHARACTER模式使用什么(非空白字符的数量)。我敢肯定我可以使用一些粗略的东西,例如:

但这有点难看,可能不是最有效的方法(这StringTokenizer件作品也是如此)。是否可以在这里使用正则表达式,或者其他一些 Java 字符串/字符的疯狂,可以让我以超高效的方式获得我需要的东西?我在这里处理数以千万计的字符串。提前致谢。

0 投票
1 回答
556 浏览

text-analysis - 文本分析解决多项选择考试

给定一本教科书和一组基于给定教科书的多项选择题,当然是数字形式,关于如何让计算机解决问题的任何想法?

我在想一些简单的单词关联(即,如果答案中的某些单词靠近问题中的单词,并且以某种方式将其最小化)。我知道在数据分析方面还有很多技术,所以请随时分享您的想法。

不,这根本与家庭作业或学校无关,我只是一时心血来潮随机想到的。

0 投票
0 回答
138 浏览

nlp - 如何进行网站基准测试?

我正在尝试对一个国家/地区的房地产领域流行的在线趋势进行竞争分析。我必须创建一个不偏向任何特定公司的报告,但它比较或仅显示公司在趋势列表中的表现。我将使用参数Clickstream analysis来显示公司网站执行情况的统计数据。Sentiment Analysis在我看来,趋势特定的表现可以用 来描述。如果有其他方法可以有效地做到这一点,我期待任何这样的方法。

现在,我找不到任何共同的趋势。

  • 我怎样才能找到所有房地产公司共有的总体趋势?

我尝试使用Google Trends. 它们提供有关特定搜索词的图形和人口统计信息,并列出了与我不知道如何使用的搜索相关的词。当我从一个国家深入到另一个州时,数量数据非常少。

一旦我掌握了趋势,我就必须找出人们对这些趋势的反应。Sentiment Analysis是将为我提供此信息的东西。

  • 但是,即使我得到了趋势,我将如何获得可以计算其极性的趋势特定数据?

Twitter 和其他社交媒体网站可以提供一些可以进行情绪分析的数据。我使用了这个网站,它给出了与 twitter 上的某些术语相关的积极、消极和中性行为。我需要与此类似的东西,但可以执行此分析的数据集不应仅限于社交媒体。

  • 我可以在这份竞争分析报告中添加任何其他实体吗?

该报告将按月生成。我希望在上述任务中实现最大程度的自动化。我正在考虑使用网络抓取来抓取类似格式的数据。我还想知道我应该抓取哪些数据以及应该手动提取哪些数据。

0 投票
1 回答
1811 浏览

php - PHP判断一个字符串是人名还是其他文本

我发现的最接近的现有问题是这个这个

我想编写一个接受字符串的函数或类,然后根据可以编程的任何标准将返回它是真实人名的概率。目前,我预计它会严重偏向于英语或欧洲名称或其他名称的英语音译。(例如,“bob”、“bob smith”和“smith”都应该返回 1.0,“sfgoisxdzzg”应该返回 .001 甚至 .0000001 之类的值)

有谁知道这是否已经完成/正在完成?(即使是另一种语言)我的第一个想法是我必须编写某种机器学习脚本。我的问题是我对任何机器学习理论都一无所知。

所以,我的问题的第二部分是:机器学习是解决这个问题的可行选择吗?如果是这样,我应该从哪些资源开始学习如何做到这一点?如果没有,你能指出我正确的方向吗?

0 投票
1 回答
105 浏览

nlp - wordnet 是否直接呈现同义词集之间的相似性?

我遇到了几个库,它们根据不同的算法计算 Wordnet 中各种同义词集之间的相似性。我的基本问题是 Wordnet 是否也提供了同义词集之间的相似性度量,或者这种相似性度量总是使用第三方实现的某种算法计算得出的?

0 投票
2 回答
345 浏览

python - 找出 10 个最常出现的词与形态

请告诉我如何更好地解决这个问题。

我有俄语的文本,我想找到 10 个最常见的词法词。也许有任何开源库可以在python中解决这个问题?

0 投票
1 回答
351 浏览

r - 通过 R 中的自动功能在 Web 抓取网页及其链接方面需要帮助

我有兴趣提取新闻中报道的超自然活动数据,以便我可以分析出现的空间和时间数据是否存在任何相关性。这个项目只是为了好玩,学习和使用网络抓取、文本提取和空间和时间相关性分析。所以请原谅我决定这个话题,我想做一些有趣和具有挑战性的工作。首先我发现这个网站收集了一些报告的超自然事件,他们收集了 2009、2010、2011 和 2012 年的数据。网站的结构是这样的,每年有 1..10 个页面......并且链接去像这个 2009 年链接http://paranormal.about.com/od/paranormalgeneralinfo/tp/2009-paranormal-activity.htm

在每个页面中,他们都收集了标题下的故事,如内部结构超自然活动,发布于 09 年 3 月 14 日,每个标题行都有两个页面......像这个链接一样http://paranormal.about.com/ od/paranormalgeneralinfo/a/news_090314n.htm

在这些页面中的每一个上,他们都在各种标题上收集了实际报道的故事……以及这些故事的实际网站链接。我有兴趣收集那些报告的文本,并提取有关鬼魂、恶魔或不明飞行物等超自然活动的类型以及事件发生的时间、日期和地点的信息。我希望分析这些数据的任何空间和时间相关性。如果 UFO 或幽灵是真实的,它们的运动中一定有一些空间或时间的行为和相关性。这是故事的长镜头...

我需要帮助来抓取上述页面的文本。在这里,我已经写下代码以跟随一页并将其链接到我想要的最后一个最终文本。谁能告诉我有没有更好更有效的方法来从最后一页获取干净的文本。此外,通过跟踪整个 2009 年的所有 10 页来自动收集文本。

我衷心感谢您阅读我的帖子以及您为我提供帮助的时间。对于任何想在整个项目中指导我的专家,我都会非常满意。

问候萨蒂什

0 投票
1 回答
470 浏览

c# - jquery插件或c#代码根据关键字总结文本

如果我在页面中显示用户搜索结果,是否有任何 jquery 插件或一些 c# 代码用于根据用户搜索的关键字总结文本?

例如,如果文本是:

并且用户正在搜索它应该变成的“单词”: