0 投票

6 回答

3304 浏览

algorithm - 使用词频生成“顶级列表”的算法

我收集了大量人工生成的内容。我想找到最常出现的单词或短语。什么是有效的方法来做到这一点？

2009-07-26T05:53:46.587

0 投票

5 回答

147 浏览

php - PHP - 正确输入了哪个单词？

我正在寻求有关编写脚本以检查短语/单词列表并将它们相互比较并查看哪个是正确键入的短语/单词的帮助。

因此，在比较每个数组中的每个索引时，它应该遍历每个数组并比较两个值。最后，它应该产生：

任何帮助，我很感激！

php arrays comparison words phrases

2009-11-04T22:45:39.847

0 投票

4 回答

1301 浏览

delphi - Delphi 短语计数/关键字密度

有谁知道如何或有一些代码来计算文档中唯一短语的数量？（单个词，两个词短语，三个词短语）。

谢谢

我正在寻找的示例：我的意思是我有一个文本文档，我需要查看最流行的词组是什么。示例文本

我把车开到洗车场。

我需要这个短语，以及它出现的计数。

任何帮助，将不胜感激。我发现的最重要的东西是来自http://tools.seobook.com/general/keyword-density/source.php的 PHP 脚本

我曾经有一些代码，但我找不到它。

delphi delphi-2009 phrase phrases

2010-03-17T01:28:15.140

0 投票

3 回答

4365 浏览

java - 如何使用 Lucene 获取频繁出现的短语

我想用 Lucene 获得一些经常出现的短语。我从 TXT 文件中获取了一些信息，并且由于没有短语信息，例如“信息检索”被索引为两个单独的单词，我失去了很多上下文。

获得这样的短语的方法是什么？我在互联网上找不到任何有用的东西，感谢所有建议、链接、提示，尤其是示例！

编辑：我只按标题和内容存储我的文件：

因为对于我所做的最重要的是文件的内容。标题通常根本不是描述性的（例如，我有许多 PDF 学术论文的标题是代码或数字）。

我迫切需要从文本内容中索引出现最多的短语，刚才我看到这种简单的“词袋”方法效率不高。

java lucene indexing full-text-indexing phrases

2010-06-29T08:14:13.447

0 投票

3 回答

2916 浏览

php - 从 Magento 中提取翻译短语

我对 Magento 比较陌生，并且正在为客户构建网站，他们只需要将整个网站使用的短语列表发送给翻译。我有点惊讶，Magento 中没有简单的内置功能可以轻松地将这些东西拉出来，这就是我现在写在这里的原因。有没有一种相对简单的方法可以从 Magento 应用程序中提取翻译短语？内置的东西可能不明显（对我来说）？或者那里有一些有用的图书馆？这包括模板（或控制器）中使用的所有内容，如下所示：

...以及布局 XML 中设置了“翻译”属性的情况等。

更进一步，我知道 Magento 提供的可用翻译在这里： http: //www.magentocommerce.com/translations - 是否有一些简单的方法可以确保我不会为短语做双重工作这些包中可能已经存在？

更进一步，有什么东西可以将所有可翻译的内容从数据库中提取出来吗？

如果所有这一切的答案都是“不”，我需要对此非常彻底，所以任何关于陷阱或特定地点的建议我都需要知道我可能不会想到从哪里提取翻译，你可能会如何之前已经取得了类似的成就，等等——我很想听听你的建议。谢谢！

php internationalization magento translation phrases

2010-09-28T18:13:47.733

0 投票

1 回答

196 浏览

jquery - Jquery：事件发生时如何产生 3 个短语中的 1 个

我的网站上有一个书签功能，当用户单击一个段落时，已经悬停在该段落上的“给这个加上书签”的框会插入“甜人”代替“给这个加上书签”。所以“书签这个”消失了，“甜人”取而代之，我怎么做，所以当我点击段落时，它会在其中放置 3 个随机短语中的 1 个，假设这 3 个短语是“成功”、“甜蜜”男人”和“真棒”。这是我的一些代码，向您展示随机短语的放置位置。

看看我的代码在哪里写着“SWEET MAN.”，这就是用户单击该段落后应该放置 3 个随机短语中的 1 个的位置。

谢谢你

jquery math random phrases

2011-01-26T10:01:11.593

0 投票

0 回答

200 浏览

speech - 英语语音短语的数据源

我正在研究为学生（使用英语作为第二语言）开发一个模拟环境来练习英语口语。

在我的开发的一部分中，我需要一个数据源，其中主要包含针对真实事件标记的英语语音短语。例如，“道歉的方式”。对不起。我很抱歉！对您的损失深表歉意。”</p>

我可以找到几个提供此服务的网站http://edition.englishclub.com，但不是数据源。

有人使用过这样的数据源，可以像“wordnet”一样使用吗？如果是这样，请帮助我继续前进。否则我必须开发这样一个数据源，我感觉就像是在重新发明轮子。

speech phrases

2011-01-26T17:02:28.247

0 投票

0 回答

299 浏览

php - mysql：挖掘关键字和短语

我想从我的产品数据库表中获取流行的单词和短语（最多 3 个单词）。

我尝试使用 sphinxsearch 服务，这很棒，除了..

它给出的结果是简单的 txt 单词 - 没有 products 表中的斯洛文尼亚特殊字符 (čžš)
结果只有单个单词，没有短语

sphinx 是从索引构建的……所有这些（包括构建索引）对于 100,000 个产品大约需要 2 分钟……

这令人印象深刻..因为我偶尔需要这个（1/月）...

但如前所述，在我的情况下无法使用....

还有什么其他选择？

我需要大约 5,000 个单词和短语

编辑我的产品数据库源

php mysql search sphinx phrases

2011-11-10T16:14:36.680

0 投票

1 回答

3054 浏览

php - 使用 php 实现自动完成的 Solr 配置

我如何索引我的数据并在 solr 中配置 solr 和我的搜索选项，以使具有以下要求的自动完成（如 google）是可能的：

产品： - 我们有带有标题、描述、ID 的产品，例如标题：toshiba tecra s1: centrino 1.5 ghz/xp pro/15.0" tft/40 gb/256 mb+256mb/cd-rw-dvd-rom/ lan/wi-fi - 此产品或此产品的字段必须以如下方式编入索引（用户搜索搜索词的方式没有区别，例如 TOSHIBA 或 tOSHiba） - 如果用户开始输入前三个字符 "tos" 最多 20 个结果（完整的标题（短语）例如 "toshiba tecra s1: centrino 1.5 ghz/xp pro/15.0" tft/40 gb/256 mb+256mb/cd-rw-dvd-rom/ lan/wi-fi") 应出现在自动完成框中。- 如果用户输入例如两个术语“toshiba tecra”，则搜索结果必须更精确，并且应该只显示所有包含（连贯的）术语“toshiba tecra”的文档

获得任何提示，使用什么样的标记器/搜索组件等会很棒。

我正在使用 solr 版本 3.5

谢谢你的想法拉莫

php autocomplete solr phrases

2011-12-10T20:19:57.373

0 投票

1 回答

330 浏览

solr - 在 lucene 索引文档中查找和排序多个短语匹配

给定一系列包含文本的文档，我想搜索短语并返回所有匹配项并对它们进行排名。我知道如何获取 lucene/solr 以指示哪些文档匹配，并在文档中突出显示，但是如何获得包含来自同一文档的多个匹配项的排名？

如果我搜索“文本行”，那么我希望它找到三个匹配项，排名如下：

这可能吗？如何？

solr lucene phrases

2012-01-17T13:38:32.330

问题标签 [phrases]

编辑我的产品数据库源

Reference