问题标签 [folksonomy]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
tags - 如何解决基于标签的网站的语义问题
基于标签的网站经常遭受语言的微妙之处,例如同义词、同音异义词等。对于寻找信息的程序员来说,比如在 Stack Overflow 上,具体的例子是:
- Subversion 或 SVN(或 svn,带有区分大小写的标签)
- .NET 或单声道
- [将添加更多]
问题是我们确实希望保留我们语言的精致性并使机器尽可能地处理它。
像 del.icio.us 这样的网站看到它的标签库增长了很多,因此可能会阻碍使用或搜索。搜索与 SVN 相关的条目可能会列出大多数带有 subversion 和 svn 标签的条目,但我可以想到三个问题:
- 搜索是不完整的,因为许多条目可能没有两个标签(它们是“同义词”)。
- 搜索不太有用,因为 Q/A 通常会导致更多 Q!特别是对于给定主题的新手。
- 标记一个问题(注意:或单独的答案,听起来很有用)变成了哲学:“我标记了正确的方法吗?”
解决这些问题的一种方法是在标签之间创建语义链接,这样 subversion 和 SVN 会自动被系统绑定,而不是被糟糕的用户绑定。
这是一种听起来不错/可行/有吸引力/有用的方法吗?如何有效实施?
regex - URL 的最后一个路径组件的 rel-tag 小书签
许多网站都支持民俗标签。您可能听说过rel-tag,它说“URL 的最后一个路径组件是标签的文本”。
我正在寻找一个书签或greasemonkey脚本(javascript)来获取当前在浏览器中查看的URL的“最后路径组件”,将该标签添加到另一个URL中,然后在新选项卡或窗口中打开该页面。
例如,如果我正在查看带有标签“foo”的delicious.com 页面,我可能想要创建一个带有标签“foo”的新URL。这也应该适用于最后一个路径组件中的多个标签,例如foo+bar。
已经提供了一些正则表达式建议。
php - PHP - 民俗标签检查正则表达式
我正在尝试创建一个正则表达式来检查自由形式的民俗系统提交的标签的值。这就是我现在所拥有的。
我想允许:连字符、反斜杠、正斜杠、az、AZ、0-9、句点、下划线、at 符号和单引号,并禁止所有其他。
我很确定否定字符类是继续进行此操作的方法...
但是我上面的代码似乎允许其他字符(例如 +),我不知道为什么。另外作为旁注,我不确定我是否确保我不会无意中允许 SQL 注入。有小费吗?
search - 在民俗学中搜索。如何解决同义词问题?
有人可以阐明如何在 del.icio.us 等网站上进行搜索吗?
如果我输入“js”(1)、“javascript”(2) 或“java script”(3) 作为我对美味的查询,我将指向有关 Java Script 的资源。但是,根据查询返回的结果集是不同的(del.icio.us 系统为“js”和“javascript”查询返回不同的书签集)。
因此,系统似乎并没有真正意识到 (1) 和 (2) 是彼此的同义词。相反,它会尝试将我的查询与在关联标签或标题中包含查询字符串的书签进行匹配。那是对的吗?
您将如何“教育”系统所有 (1)、(2)、(3) 实际上是同义词,并且无论选择何种查询,用户都应该看到所有与 Java Script 相关的资源?
这样做是个好主意吗?
谢谢,格雷格
organization - 在 Tax/Folksonomy 中自动组织标签
我正在研究一个流程,该流程将在我们的一个(可能还有几个)内容丰富的网站上执行自然语言处理(NLP)。一旦 NLP 完成,我想做的是将输出(通常是一组术语,鉴于该隐喻的流行,您可能会认为是标签)到某种标准或普遍接受的组织结构中。
在一个完美的世界里,我真的很希望这是在民俗学概念(而不是分类学)下进行众包,因为最终目标是针对/吸引真实的人而不是“领域专家”,但我是开放的想法和最佳实践。出于可扩展性的明显目的,我想自动化这种税收/民间社会的人口,以便团队/组织中的“某些人”不负责查看一堆单词(有或没有上下文)和任意充实树的上下文组件。
我有一些想法需要一些研究来确定可行性,但我对这类事情的实践经验完全为零,所以这些想法实际上只是归结为我编造的可能在完成任务中发挥作用的东西。想象其他人在这种事情上的经验要多得多,我希望我能站在你的肩膀上。
感谢您的想法和见解。
实际例子
我针对我自己博客上的一篇文章运行了 NLP 。NLP 返回了具有足够相关性的以下术语:
- 罗伯·威尔克森
- 改变
- 吉特
现在,我想在没有人为干预的情况下将这些术语纳入税收/民俗学。在这种情况下,“Git”和“Rob Wilkerson”是可以分类的术语——如果这些术语没有产生足够的牵引力值得跟踪,那么在这个过程中有/将会有一个额外的规定,将从结构中删除这些术语. 另一方面,“改变”可能太模糊/模棱两可,不值得麻烦。
php - 任何为多种对象类型扩展的 PHP 标记库?
我在其他应用程序中使用过 freetag 。(而且我对这些应用程序中的它感到满意。)但就像我见过的其他标记库一样,它在标记对象表中假设一个单一的对象类型。
(这不是来自 freetag 的表定义。)
我想在一个新项目中启用多个对象类型的标记 - 博客文章、论坛线程等。为此,我需要扩展 tagged_objects 表以包含对象类型:
是否有任何现有的 PHP 库可以扩展标记对象表以包含对象类型?
谢谢
mysql - Toxi mysql 性能,标记。帮助理解
我正在使用 Toxi 方案在我的网站上标记项目。作为 mysql 的新手,更不用说标记了,我只是在做一个健全性检查。这是我的表初始化脚本。
http://forge.mysql.com/wiki/TagSchema
问题 1
我的理解是否正确,“Item2Tag”表中每个“item_id”到“tag_id”都有一个条目?当我有大约 3000 个项目并且每个项目可能有大约 5 个标签时,这似乎将是一张巨大的桌子。这不是一个问题/不是一张大桌子吗?
问题2
有人可以帮助我了解拥有外键/引用的重要性吗?为什么我需要这些,它们是做什么的?
php - 从输入中获取流行或相关的词以用作标签
我们都知道 SO 上的标记是如何工作的。我们发布一个帖子,对其进行标记,它有助于搜索并用于民俗学。
这就是我想做的。我可以以某种方式从帖子中获取相关单词以用作标签,而不是强迫人们标记帖子。
除了说,获取重复的单词,有没有从帖子中获取相关单词的方法?也许是一个可以检测导入词的语言解析器?
请给我你自己的想法。它不必按照我的想法。谢谢。
python - 管理民俗学的图书馆/平台?
我正在构建一个涉及重要用户和自动标记服装的应用程序。
结构一般如下:
因此,基本上任何单个项目都将使用每个“类别”中的 1 个或多个标签进行标记。一类标签可以围绕互斥等定义规则。
我已经准备好了一些东西,但是由于这个标记机制已经在项目中有机地发展了,它的设计并没有很好地发挥它现在在我们的应用程序中扮演的核心角色。
在我重新设计它之前,我想知道是否有人知道一个库或平台(最好是易于与 python 互操作的),它将允许:
- 创建/添加标签和类别
- 将元数据添加到类别以允许执行规则集(互斥)
- 理想情况下,很容易序列化数据集以供客户使用
有什么建议么?
python - 从段落中挑选最相关的词
不知道如何正确表达这个问题,但这是我打算使用下面概述的假设场景来实现的目标 -
用户给我的电子邮件只有主题和正文,主题是电子邮件的主题,正文是对主题的描述,最多只有一段,最多 1000 个单词。现在我想用某种计算机语言(可能是python)分析这个段落(在正文中),然后从段落中列出与主题字段中提到的主题相关的最重要的单词。
例如,如果电子邮件的主题是 iPhone,正文类似于“iPhone 重新定义了具有超分辨率和图形的用户界面设计。它完全支持触控并允许用户滑动屏幕”
所以我正在寻找的结果是一个列表,其中包含与 iPhone 相关的段落中的关键术语。示例 - (用户界面、设计、分辨率、图形、触摸、滑动、屏幕)。
所以基本上我正在寻找从段落中挑选最相关的单词。我不确定我可以使用什么或如何使用来实现此结果。在谷歌上搜索,我读了一些关于自然语言处理和 python 和分类等的知识。我只需要一个关于如何去做的通用方法——使用什么技术/语言,我必须阅读哪个领域等等。
谢谢!
编辑:::
在此期间我一直在阅读。准确地说,我正在研究如何做到这一点,使用什么工具:
使用基于同义词、形态相似性、拼写错误和上下文分析的 NLP 从正文中生成相关标签。