问题标签 [keyword-search]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 检查文件中的数据是否重复(Python)
我正在尝试制作一个主题列表以供另一个项目使用,并且我将主题存储在Topics.txt
. 但是,当主题存储在文件中时,我不想要重复的主题。因此,当我将主题保存到Topics.txt
文件中时,我也会将它们保存到Duplicates.txt
文件中。我想要做的是创建一个条件语句,Topics.txt
如果主题位于Duplicates.txt
. 我的问题是,我不知道如何创建一个条件语句来检查主题是否列在Duplicates.txt
. 如果您扫描诸如“音乐”之类的关键字,则可能会出现问题,发现“电子音乐”包含“音乐”一词。
php - 使用 MySQL 中的关键字数据库进行关键字提取
我有一堆关键字存储在 MySQL 中。为简单起见,假设数据库几乎没有关键字。
可以说它们存储了一个像这样的表:
现在有几个关键字:
'C'、'C++'、'C#'、'Zend 框架'、'Visual Basic'
现在我想从文本中提取这些关键字。如:
这里有一些编程语言和框架,例如 C++、Visual Basic 和 Zend Optimizer 做一些事情。
应该使用示例关键字数据库条目从上面的文本中找到的明显关键字应该是:
C++、Visual Basic
到目前为止,我尝试了 2 种方法。
1- 将文本放入单词中并使用 SQL 查询来搜索匹配的行。
例如:WHERE 关键字 IN ('word1','word2'...)
这对于单个单词非常有效。但是,它找不到像 'Visual Basic' 等 2 个单词的东西。
2-使用全文索引并将文本作为自然语言提供给mysql。
例如:匹配关键字 AGAINST(“全文”)
这也很好用,但它返回诸如“Zend Framework”之类的东西(因为全文索引将 Zend 和 Framework 作为单独的单词,而它没有找到 C++(由于 MySQL 中的单词分隔符)。我不想我自己的整理仅用于此目的。
我发现的大多数 stackoverflow 文章都建议方法 1 或 2,但都不适合我。关于什么是提取多词关键字的最佳方法,同时还以简单的方式匹配具有标点符号的数据库中的其他文本(例如 C++ 等)的任何想法?
谢谢!
elasticsearch - 部分和完整的短语匹配
假设我有一句话:“约翰喜欢在他的兰博基尼 Huracan中带他的宠物羔羊,而不是在他的兰博基尼 Gallardo中”,而我有一本包含“兰博基尼”、“兰博基尼 Gallardo”和“兰博基尼 Huracan”的字典。提取粗体词,实现词组“Lamborghini Gallardo”和“Lamborghini Huracan”作为词组匹配,以及其他部分匹配“Lamborghini”和“lamb”的好方法是什么?优先选择词组匹配而不是单个关键字。
弹性搜索提供完全匹配、匹配短语和部分匹配。确切的术语显然在这里不起作用,也不匹配短语,因为在这种情况下整个句子都被视为短语。如果我在句子中只有感兴趣的关键字,我相信部分匹配是合适的。通过以前的 SO 线程,我发现相关性接近,这似乎是相关的,但不确定这是否是“最佳选择”,因为需要设置阈值。或者即使有比弹性搜索更简单/更好的选择(这似乎更适合全文搜索而不是简单的关键字匹配到数据库)?
jquery - 带有逗号分隔关键字的 jQuery 文本字段实时搜索
我正在尝试使用 jQuery 和逗号分隔的关键字创建实时搜索。如果我只将文本字段中的完整字符串作为关键字,搜索就像一个魅力。
代码(适用于单个关键字):
我现在要做的是使用多个关键字进行过滤。我考虑将字符串拆分为一个数组并循环遍历关键字。问题是,我得到了大量的 jQuery 事件,所以浏览器不能再处理它了。
有什么聪明的方法可以完成这项工作吗?
多个关键字的代码(不起作用):
谢谢!
api - SEMRush API 错误 135 :: API 报告类型已禁用
我有调用 SEMRush API 的代码,它工作了一段时间,然后突然我盯着 API 调用 403 并出现 SEMRush 错误:
我调用的 API 端点是:
我在他们的文档中找不到有关此错误的任何信息。
请问有谁知道这个错误是什么意思以及如何解决它?
python - 使用流式 API、python 进行 Twitter 挖掘
我想用关键字抓取推文数据:“王牌”、“克林顿”。我通常使用 Jupyter Notebook 来使用 Python3。以下是我的代码,当我运行单元格时它会停止。
我在代码之间插入了一些其他代码以获取错误,但也不起作用..
以下是代码。
使用 Jupyter Notebook 的代码:
vb.net - 如何将带有特定单词的特定行从 Richtextbox 复制到另一个 Richtextbox?
我有一个 Richtextbox,每行中有很多单词。
这是布局:
当我单击“过滤数据”按钮时,假设 Button2,我希望它将左侧的 Richtextbox1 中的某行上的句子复制到右侧的 Richtextbox2,其中包含我在中间的 Textbox1 中输入的特定关键字表格顶部。
例如,当我在 KEYWORDS 文本框中输入“1”时,按钮会将第 1 行和第 10 行的句子复制到 Richtextbox2 中。
java - 使用 KEA 或其他 python 库提取关键字
我现在正在为一个关键字提取项目工作。基本上,我使用 python 来做到这一点。先说一下我的项目是什么。我在这个项目中的目标是从段落或网页中找出关键词(关键短语不是那么可取)。
我假设我可以从网站上抓取非常好的内容结构。
假设我有很多段落,所有段落都来自同一个行业。这是示例段落之一:
关于我们
我们是世界上最伟大的银行,提供世界上最安全的服务。我们的银行提供外汇、证券交易和储蓄服务。在过去的几年里,我们成功地建立了可靠的声誉。
其次,我已将这些段落中的关键字标记为其他有监督学习模型。
最后,我尝试使用 KEA,这是一个 JAVA 程序(我使用 python 调用 JAVA 程序),有一个模型。
然而,最终的结果是非常糟糕的。准确率只有15%左右。这意味着,如果我给我的 KEA 程序一个段落,KEA 会输出 10 个关键词给我,并且将近 85% 的这些关键词实际上都不是一个理想的关键词。
在这里我有几个问题:
- 这个问题是关于 KEA 的准备材料。关键字是否应该包含在训练数据的 .txt 文件中?或者我应该从段落中删除它?因为它在 KEA 的自述文件中令人困惑:
'从这些文档中删除作者指定的关键短语,并将它们放入单独的“.key”文件中。例如,如果您的文档文件名为 doc1.txt,请将关键词移动到名为“doc1.key”的新文件中。将每个关键短语放在此文件中的单独行上很重要!
因此,假设我的训练数据有最后一个示例段落,并假设 'safe' 和 'reliable' 。我应该从段落中删除这两个词吗?
由于KEA可以应用SKOS词汇,是否意味着如果我在某种主题(比如说金融行业)中使用合适的SKOS词汇,我的模型结果会更好?如果是,我在哪里可以找到这些 SKOS 词汇表,例如我想要关于金融行业的 SKOS 词汇表。
是否有来自 python 的建议库可以在这个主题中强大?有人可以分享给我吗?
非常感谢。
theory - 关键字研究/分析软件如何[理论上]工作?
我见过很多关键词研究/分析应用,比如Market Samurai:关键词分析工具,SEMRush关键词工具。
我的问题是他们如何获得有关这些关键字的统计信息?他们是否使用谷歌 api 来实现这一目标?
我看不到未连接到谷歌搜索数据库的软件如何获取有关每月搜索、竞争...等的信息。
谢谢。