问题标签 [vocabulary]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
python - 在围绕关键字的窗口中计算词汇文件中的匹配项
对于我的研究,我试图从语料库中计算存储在文件中的一系列复合术语(例如安全危害)出现在 16 个单词的窗口中的次数(每个短语 1 行)目标关键字(例如设施)。我不是程序员,一直试图将其分解为 2 个元素:首先从语料库中提取一个文件,其中我的目标关键字匹配,前后 8 个单词。然后尝试将我的“词汇文件”与该摘录相匹配。我在第 1 部分,已经尝试过这个,但我只是收到 <_sre.SRE_Match object at 0x028FFE78> 消息并且正在努力尝试使用 repr:任何建议表示赞赏或其他方法来做到这一点。最终,我想要一个导出文件,其中包含我的词汇单词,并在它们之后进行计数,指示在该窗口中使用我的目标单词找到它们的频率。
任何帮助表示赞赏,保罗
url - RDF 词汇表如何指定属性类别(来自“数据入门中的 URL”)?
W3C TAG上个月在 Data Primer 中发布了 URL 工作草案。它指定了httpRange-14 问题的解决方案。
现在,词汇表应该为其属性指定类别,即属性是否适用于文档或文档描述的实体。
RDF 词汇表应该/如何指定当今属性的类别?
它说元格式(→ RDF)应该为属性和模式语言(→ RDFS)指定一个默认类别“应该包括指示属性类别的机制”。但我想这些规范更新需要一些时间。
jena - 一些 Jena 词汇使用“ResourceFactory.createProperty()”,而其他词汇使用“ModelFactory.createDefaultModel().createProperty()”
我是 Jena 的新手,但是当我查看使用 Jena 源定义的词汇表(即在 中directory: jena-2.10.0-Source\jena-core\src\main\java\com\hp\hpl\jena\vocabulary
)时,我看到一些词汇表使用'ResourceFactory.createProperty()'
(例如 OWL2.java、RDF.java、RDFS.java)创建属性和资源,而同一目录中的其他人使用'ModelFactory.createDefaultModel().createProperty()'
(例如 DC_11.java、VCARD.java、DCTerms.java)。
我知道 ResourceFactory 用于在不参考 a 的情况下创建资源和属性'model'
,但我只想了解为什么其中一些词汇选择创建和使用'model'
实例而其他词汇不选择。
它只是个人风格,还是通常推荐一种方法而不是另一种方法(也许一种风格是“旧方法”,据我所知,Jena 已经存在很长时间了)?
我想在我的代码中同时使用 RDFS 和 DC_11 词汇,并且显然定义了我自己的特定于应用程序的资源和属性,所以我只是想了解我应该为自己的东西采用哪种方法。
dictionary - 如何为 LDA 构建字典
我已经在 Latent Dirchlet Allocation 上工作了 2 周,我正在尝试构建一个字典和一个训练文件来尝试它。我已经通过使用 Blei 的训练文件在 Matlab 和 gcc 上进行了尝试,但我不知道如何创建字典。有人可以帮助我吗?谢谢安德里亚
semantic-web - 本体与词汇
我最近开始使用语义网和链接数据技术,但我一直对一件事感到困惑。本体和词汇表有什么区别?哪个更可取?
dictionary - WordNet(JWI MIT) : 如何查找具有特定字母/短语的单词?
如何使用WordNet API(http://wordnet.princeton.edu/ )的 JWI MIT 接口( http://projects.csail.mit.edu/jwi/ )找到以特定字母或特定短语开头的单词列表)。任何想法,如何实现这一目标?
microdata - 如何在 HTML5 微数据中使用多个词汇(与 schema.org 不同的词汇)
假设我有这个有效的微数据增强 HTML 片段:
(我已经用谷歌的结构化数据测试工具对此进行了测试。)
现在我想添加一个在 schema.org 中不可用但在不同词汇中可用的属性(在这种情况下,W3C 注册了 Org Vocab [1]):
至少谷歌声称:
Error: Page contains property "http://www.w3.org/ns/regorg#registration" which is not part of the schema.
我可以删除itemtype
但我不想要这个,因为它会失去保真度 [2] 没有其他方法可以做到这一点吗?使用 RDFa 这将没有问题。
编辑
我发现 [3] 建议复制内容,但这显然不是一个好的解决方案。
[1] http://www.w3.org/TR/vocab-regorg/#ref_rov_registration
[3] http://www.w3.org/wiki/Mixing_HTML_Data_Formats#Mixing_Vocabularies_using_Repeated_Content
twitter - 朴素贝叶斯分类器是否需要了解整个词汇表?
我正在尝试将推文分为两类(例如,basketball
和non-basketball
)。显然,数据集是动态的,即文档集合不固定为一组N
文档(即推文):数据集在爬取 Twitter 时一遍又一遍地膨胀。
应该尝试应用的一件事是朴素贝叶斯分类器,它广泛用于文本分类。此处提供了解释。然而,一个疑问仍然存在。
我可以从训练集开始计算模型(并说明词汇表V
是由训练集中包含的术语组成的)。现在,人们可以收集一条新的、未分类的推文,其中包含不存在的V
术语(即,没有出现在训练集中的术语)。朴素贝叶斯分类器是否仍然适用?
概括问题:朴素贝叶斯分类器能否应用于词汇表不完全已知的情况?
先感谢您。
html - 使用受控词汇
在<body>
中,受控词汇可以按如下方式初始化:
采用类似的方法在 中使用受控词汇表是否可以接受(并且是一种良好的编程实践)<head>
?例如:
sql - 在 SQL 的上下文中,多重性是什么意思?
我认为多重性与外键关系表的类型有关。
但是当我阅读这样的答案时:“如果您的 FK 可以为空,则您在主体实体中的多重性必须为 0..1 - 默认值对此没有任何作用,因为您可以将 null 分配给 FK。所以您的所有依赖实体必须是在 0..1 - * 与您的主要实体的关系。” ..它会变得相当吓人。
谁能带我了解一些 SQL 术语?什么是 0..1 - * 关系?