问题标签 [text-analysis]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
php - 如何包装尚未包装的单词或单词序列?
我正在尝试使用 preg_replace 将给定列表中的单词和单词序列包装起来。它几乎可以工作,但是在某些用例中它不起作用,我不知道该怎么做。
例如我这样做:
从此关键字列表中:
- 洛雷姆
- ipsum
- 坐下
- 空值
- sed
- sed enim
我想导致:
-Lorem- -ipsum- dolor -sit amet- , consectetur adipiscing elit。Phasellus rhoncus venenatis orci sed porta。Sed 非悲伤爱欲。Suspendisse a massa -sit amet- nulla egestas facilisis。Cras fringilla、leo ac ullamcorper semper、urna eros pretium lectus、nec rhoncus ligula risus eu velit。Nulla eu dapibus magna。Sed vehicula tristique lacinia。Maecenas tincidunt metus 在 urna consequat nec congue libero iaculis。Nulla facilisi。Phasellus -sedsem ut risus mattis accumsan eu -sed enim-。Pellentesque 居民 morbi tristique senectus et netus et malesuada 名声 ac turpis egestas。Suspendisse id est velit, eu cursus quam。Vivamus lacinia euismod pretium。
有任何想法吗?
algorithm - 从消息中获取情报的算法选择
我正在尝试做的是找到一种算法,通过比较他们发送的消息与他们的同伴发送的消息,我可以实现向人们生成“智能”建议。
例如,A 向 B 发送一条谈论 Obj1 的消息。如果 C 向 D 发送有关 Obj1 的消息,它会注意到他们在谈论相同的事情,并可能建议 A 与 C 交谈。
我已经实现了收集统计数据以捕获人们共同提及但不知道使用哪种算法来分析它。
有什么建议么?(我希望这足够有意义)
php - 关键字分析器
我想知道用于制定关键字竞争的任何算法或 php 代码。关键字可以在每个网站和多个网站上使用多个网站。我想知道它的排名是如何计算出来的。
谢谢
java - 高效的关键字检测/提取。预定义的一组关键字
如何有效地从字符串中提取具有相关性的关键字?我的关键字列表是预定义的。例如,在一篇关于 Michelle Obama 的文章中也提到了 Barack Obama,我想提取Michelle Obama
并Barack Obama
让关键字Michelle Obama
获得更高的相关性值(两者Michelle Obama
都Barack Obama
出现在我的关键字列表中)。
检查字符串中每个关键字的出现次数似乎不是很有效。我的应用程序是用 PHP 开发的,但如果我能有效地做到这一点,任何语言都可以。
我尝试了 OpenCalais,但它没有检测到我的大部分关键字。是否可以使用 Lucene 提取关键字?
algorithm - 如何从给定的文本中自动识别标签(关键词)?
它的行为应该像Firefox 的Delicious 工具栏一样;它列出了可以点击的标签。效果如下图:
代码应该能够找到文本的关键词。有什么好的算法或开源项目可以推荐吗?
我找到了这篇文章,但它对于我的特定需求来说有点太笼统了。
lucene - 从 Lucene 中的 SpanNearQuery 获取与匹配项对应的单词
我需要在我的文本中检索与 SpanNearQuery.getSpans() 返回的 Spans 匹配对应的单词。例如,如果我的文本是 [abcdef] 并且我使用 SpanNearQueries 和查询“b”和“e”(以及足够的 slop),那么我在文本中得到匹配的“bcd e”。现在,我怎样才能最有效地检索出现在匹配中的单词,即单词序列“bcd e”本身?
这是我需要的示例代码:
现在我想遍历 allSpan 中的所有匹配项,并为每个匹配项检索查询 9 与该匹配项对应的文本之间的确切单词。
一种间接的方法是获取匹配的结束和开始位置,使用文件阅读器读取文本文档,并找到位置“结束”和“开始”之间的文本字符串。但这似乎不是一个非常有效的方法。看来这些信息应该已经存储在 Lucene Index 中了。
有人知道在匹配中检索查询之间的单词的更直接方法吗?
谢谢。
.net - 按下按键时查找关键字
我正在寻找文本分析器的 .net 实现。文本分析应在输入每个字符后进行。分析器应该能够存储几个关键短语并在输入其中一个短语时触发一个事件。例如,如果搜索的短语是“Hello world”,则分析器应在输入“d”后立即在“123Hello world”上触发事件,但如果输入“Helloworld”,则不会触发事件。
java - 如何编译调用 MeCab - 日语词性和形态分析器的 java 文件?
我正在尝试使用 MeCab (http://mecab.sourceforge.net/#download) 对日语句子进行分词,并按词性标记每个单词。我按照这些说明http://mecab.sourceforge.net/#install-unix安装了 MeCab 。由于我不想编写 shell 脚本来处理 150,000 个句子(因为我的 Mac OS X 终端无法显示日文字符),我正在使用现有的 Java 绑定:http: //sourceforge.net/projects/mecab/files /mecab-java/0.98pre3/。此时我正在尝试编译并运行给定的 test.java 文件:
这是自述文件:
我编译:javac test.java。然后我运行:java -classpath MeCab.jar test -d ../dic。结果是以下错误:
我不是很了解这个mecab-java-0.98pre3 目录的层次结构,所以看不到如何实际编译和运行这个test.java。有什么想法吗,伙计们?谢谢!
python - 使用 Python 的文本分析器功能
哪个基于 Python 的库提供了类似于http://textalyser.net/的文本分析功能
java - 如何自动从 html 页面创建模板?
我有一个用例,我需要在 Java 中以给定网页的格式呈现未格式化的文本。即文本应自动格式化为带有样式、段落、项目符号等的网页。
正如我首先看到的那样,我将不得不分析这段未格式化的文本以找出段落、项目符号、标题等的候选者。我打算使用 Lucene 分析器/标记器来完成此任务。有没有其他选择?
第二个问题是将格式化的网页转换为某种模板(例如速度模板),其中包含标题、项目符号等各种实体的占位符
。Java 中是否有任何文本分析/模板库可以帮助我做到这一点?最好是开源的。
在 Java 中以更好的方式完成此类任务还有其他建议吗?
谢谢你的帮助。