问题标签 [data-dictionary]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
java - 文本分割:基于字典的分词
背景
将数据库列名称拆分为等效的英文文本以作为数据字典的种子。英语词典是根据公司文档、wiki 和电子邮件的语料库创建的。字典 ( lexicon.csv
) 是一个包含单词和概率的 CSV 文件。因此,某人写“治疗师”一词的频率越高(在电子邮件或维基页面上),“治疗师姓名”分裂为“治疗师姓名”而不是其他内容的机会就越高。(词典可能甚至不包括强奸犯这个词。)
源代码
- TextSegmenter.java @ http://pastebin.com/taXyE03L
- SortableValueMap.java @ http://pastebin.com/v3hRXYan
数据文件
- lexicon.csv - http://pastebin.com/0crECtXY
- columns.txt - http://pastebin.com/EtN9Qesr
问题(2011-01-03 更新)
当遇到以下问题时:
存在这些可能的解决方案:
词典包含具有相对概率(基于词频)的词:dependent 0.8
、end 0.86
、relationship 0.9
、depend 0.3
和ent 0.001
。
消除dep end ent relationship
因为dep
不在词典中的解决方案(即 75% 的单词使用率),而其他两个解决方案涵盖了词典中 100% 的单词。在其余解决方案中, 的概率dependent relationship
为0.72而depend ent relationship
为0.00027。因此,我们可以选择dependent relationship
正确的解决方案。
有关的
问题
鉴于:
您将如何实现一个基于词典覆盖率和概率生成最可能解决方案的例程?例如:
谢谢!
mysql - 为 MySQL 数据库创建“数据字典”的实用程序
我想知道是否存在为 MySQL 数据库创建数据字典的实用程序。
我正在考虑编写一个 php 脚本来获取有关数据库的元数据并以逻辑格式显示它以供用户理解,但如果有一些预构建的实用程序可以简单地做到这一点,我宁愿避免这种情况为了我。
c# - 对成对的数值进行排序——在java中是否有一个.NET等价于hashmap?
这几天我一直有一个烦人的问题,这就是我正在尝试做的事情:
我正在编写一个程序,它以多种方式操作各种数字集,到目前为止一切都很好 - 现在我使用循环控制其中一个这样的计算,因此每次循环它都会输出一个 int 值 x 和一个 int 值 y。
现在 x 是连续的,从一个计数器派生而来,y 只是一个可变数字。
所以我再说一遍,我有一个简单的循环来读取数据行
现在我想为每一行获取这两个值,最后根据值 y 进行排序!最初我只是像以前在 java 中那样使用 hashmap 并按值进行排序,但我发现很难在 c# 中作为数据字典(我也不想使用临时表)允许您按键排序(在我的情况下为 x)
现在我应该采取什么方法?- 使用循环的输出对值作为数据表的输入?- 使用一个看起来很复杂但最终是维持 x 和 y 之间对关系的唯一方法的二维数组?
或者有没有其他方法可以做相当于按值排序的java hashmap?
mysql - MYSQL数据文件压缩到gz
我有drupal网站,数据库大约10GB。我正在检查我的drupal数据库的datadir,发现有些文件是.gz!!为什么是这样?它会影响性能吗?该网站运行良好,我可以正常使用这些表,尽管没有对应的文件 for.gz(即我在数据目录中有 content_type_company.MYD.gz 但没有 content_type_company.MYD)
,列表如下所示:
sql - 尽管列存在,但从 cols 中选择 column_name 不返回任何内容
我正在尝试在 Oracle 9i 中执行此语句。然而,结果集似乎是空的,尽管 J 非常确定有许多列名称为 ID。
此外,以下语句返回一个空结果集。
请问这是否可能是由于用户权限?
谢谢!
jde - JDE 数据字典
JDE EnterpriseOne 8.98.4.1 数据字典?我使用 Databrowser 来定位 F9210 中的数据项 - 在本例中为长地址数据字段。现在我如何将此字段外部引用到使用它的表格、视图、表单和报告中?
任何 JDE 数据字典指针将不胜感激。
sql-server - 为 SQL Server 数据库生成数据字典
我正在尝试为我的数据库中的表生成数据字典。
理想情况下,我想导出列名、数据类型、限制和扩展属性描述。
如何做到这一点?
postgresql - 从 PostgreSQL 到 Confluence Wiki 的数据字典生成器
我正在寻找一种采用 PostgreSQL 表并以 wiki 格式(最好是 Confluence)输出数据字典的工具。似乎大多数工具都需要大量手动工作/多个工具来完成这项任务(IE> SchemaSpy、DB Visual Architect、Confluence 插件来获取输出的 HTML DD 并转换为 Confluence)。我正在寻找一个工具,它可以扫描我的 Postgres 表并输出一个 wiki 友好的数据字典,该字典将允许在数据库更改时进行无缝维护,而无需在另一个工具中更新我的数据库和数据库架构。
database - 数据字典和报告工具
我的问题是关于报告工具和数据字典的概念。是否需要使用数据字典才能做好报告?哪些工具使用它?我所说的工具是指 jasper 报告、打开的报告、SQL Server 报告服务...谢谢您的帮助
php - 我需要帮助为 PHP/MySQL 驱动的应用程序创建数据字典
我正在创建一个属性搜索/比较网站。我需要帮助创建存放数据的 mysql 表。
我不确定我需要多少表以及列标题应该使用什么。
我希望网站尽可能准确和完整。
我有了创建这个网站的想法,因为我目前正在寻找住所,搜索条件非常简单,但是房产比较网站没有关于我正在搜索的房产的完整/准确数据。
我不知道表格需要如何“标准化”,例如我可以:
表:属性,字段:id,address_id,卧室,浴室,车库,花园。表:地址,字段:address_id、address_line_1、address_line_2、address_line_3、城镇、城市、邮政编码。
但是我是否需要详细介绍房屋内的每间卧室并指定其尺寸等。
如果有人有任何建议,无论多么小。我真的很感激。