问题标签 [structured-data]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
log4j - Log4j SyslogAppender 是否支持 MDC 和 NDC
真的很简单,Log4j SyslogAppender 是否支持 MDC 和 NDC,因为输出是结构化数据,即使用协议的结构化数据特性?
此外,对于可以放入 MDC 并成功附加到日志的内容是否有任何限制?
.net - 用于固定长度文本文件的 .NET 库
我正在寻找一个 .NET(最好是 C# 中的开源)库来处理固定长度的字段文本文件。写一个不会太多,但是从现有的、经过测试的工作开始总是更好。
我将从 PBX 生成的文件中提取固定长度字段中的数据。每个 PBX 都有自己的文件格式,以及一组记录格式。我正在寻找一种使用动态文件和记录格式的简单方法的库,例如从 INI 或 XML 文件中读取。
编辑: 我以前忽略了 Marcos Meli 的优秀库FileHelpers,因为我认为我需要在编译时为每种记录类型创建一个类。事实并非如此,lib 包含一个ClassBuilder
在运行时构建类的类。
新编辑: 来自不同 PBX 的记录仅在布局上有所不同,在数据上没有区别,即所有记录布局都映射到同一类。我想知道是否应该使用 FileHelper 属性从配置文件中动态读取它们的开始和长度数据?
algorithm - 结构化数据的模糊匹配
我在数据库中有一个相当小的结构化记录语料库。给定一条记录中包含的一小部分信息,通过 Web 表单提交(结构与表模式相同),(让我们称之为测试记录)我需要快速起草一份清单最有可能与测试记录匹配的记录,并提供搜索词与记录匹配程度的置信度估计。此搜索的主要目的是发现是否有人正在尝试输入与语料库中的记录重复的记录。测试记录有合理的可能性是欺骗性的,测试记录也有合理的可能性不是欺骗性的。
记录的宽度约为 12000 字节,记录的总数约为 150,000。表架构中有 110 列,95% 的搜索将位于最常搜索的前 5% 列。
数据是诸如姓名、地址、电话号码和其他行业特定号码之类的东西。在语料库和测试记录中,它都是手动输入的,并且在单个字段中是半结构化的。乍一看,您可能会说“手动加权列并匹配其中的单词标记”,但这并不容易。我也是这么想的:如果我得到一个电话号码,我认为这将表明一个完美的匹配。问题是表单中没有一个字段的令牌频率不会按数量级变化。一个电话号码可能在语料库中出现 100 次或在语料库中出现 1 次。任何其他领域也是如此。这使得现场级别的加权变得不切实际。我需要一种更细粒度的方法来获得体面的匹配。
我最初的计划是创建一个哈希值,顶层是字段名。然后,我将从语料库中为给定字段选择所有信息,尝试清理其中包含的数据,并对清理过的数据进行标记,在第二级对标记进行散列,将标记作为键,频率作为值。
我会将频率计数用作权重:参考语料库中标记的频率越高,如果在测试记录中找到该标记,我对该标记的权重就越小。
我的第一个问题是针对房间里的统计学家:我将如何使用频率作为权重?在 n、记录数 f(t)、标记 t 在语料库中出现的频率、记录是原始记录而不是重复记录的概率 o 以及记录的概率 p 之间是否存在精确的数学关系?测试记录真的是记录 x 给定测试和 x 在同一字段中包含相同的 t?跨多个字段的多个令牌匹配的关系如何?
既然我真诚地怀疑是否存在,有什么能让我接近但比一个完全任意的充满魔法因素的黑客更好的东西吗?
除此之外,有没有人有办法做到这一点?
我特别热衷于不涉及在数据库中维护另一个表的其他建议,例如令牌频率查找表。
information-extraction - 信息提取工具包
我正在寻找信息提取库,我可以在其中拥有可能包含隐藏或不完整数据的半结构化信息。我想训练一些分类器根据结构提取内容。
我正在构建一个可以在浏览器中选择文本的工具,它将生成(通过一些 Web 服务调用)一个分类器,该分类器可用于其他文档以提取文本。
我主要研究如何使用文档的结构来指示内容是什么。
sql-server-2008 - SubSonic 2.x 现在支持 TVP - SQL Server 2008 的 SqlDbType.Structure / DataTables
对于那些感兴趣的人,我现在修改了 SubSonic 2.x 代码以识别和支持 DataTable 参数类型。
您可以在此处阅读有关 SQL Server 2008 功能的更多信息:http: //download.microsoft.com/download/4/9/0/4906f81b-eb1a-49c3-bb05-ff3bcbb5d5ae/SQL%20SERVER%202008-RDBMS/T-SQL %20增强功能%20with%20SQL%20Server%202008%20-%20Praveen%20Srivatsav.pdf
现在,此增强功能将允许您创建一个部分 StoredProcedures.cs 类,该类具有一个覆盖存储过程包装器方法的方法。
关于良好形式的一点:我的 DAL 没有直接的表访问权限,我的数据库只有该用户对我的存储过程的执行权限。因此,SubSonic 仅生成 AllStructs 和 StoredProcedures 类。
SPROC:
TVP:
自动生成工具运行时,它会创建以下错误方法:
它将 UserDetails 设置为字符串类型。
由于为 SubSonic DAL 提供两个文件夹(自定义和生成)是一种很好的形式,因此我在自定义中创建了一个 StoredProcedures.cs 部分类,如下所示:
如您所见,方法签名现在包含一个 DataTable,并且通过我对 SubSonic 框架的修改,现在可以完美运行。
我想知道 SubSonic 的家伙是否可以修改自动生成以识别存储过程签名中的 TVP,以避免重新编写包装器?
SubSonic 3.x 是否支持结构化数据类型?
Also, I'm sure many will be interested in using this code, so where can I upload the new code?
Thanks.
python - 非结构化文本到结构化数据
我正在寻找有关以类似于谷歌日历快速添加按钮的方式构建非结构化文本的参考资料(教程、书籍、学术文献)。
我知道这可能属于 NLP 类别,但我只对“Levi 牛仔裤尺寸 32 A0b293”之类的过程感兴趣
to:品牌:Levi,尺码:32,类别:牛仔裤,代码:A0b293
我想这将是词法解析和机器学习技术的某种结合。
我与语言无关,但如果推送我更喜欢 python、Matlab 或 C++ 参考
谢谢
python - Python 最支持哪种结构化文本格式?
这个问题可能被视为主观问题,但我想问一下 SO 用户,Python 最支持哪种常见的结构化文本数据格式。
我最初的选择是:
- XML
- JSON
- 和 YAML
这三种中哪一种最容易在 Python 中使用(即具有最好的库支持/性能)......或者是否有另一种我没有提到的格式在 Python 中得到更好的支持。
我不能只使用 Python 格式(例如 Pickling),因为互操作非常重要,但是处理这些文件的大部分代码都将用 Python 编写,所以我热衷于使用 Python 中支持最强大的格式。
CSV 或固定列文本对于大多数用例也可能是可行的,但我更喜欢更具可扩展性的格式的灵活性。
谢谢
笔记
关于互操作,我最初将使用 Ruby 从 Ruby 生成这些文件Builder
,但是 Ruby 不会再次使用这些文件。
rebol - 读取结构化数据是否有比 LOAD/NEXT 更精细的粒度?
想象一下,我有一个长的 Rebol 格式数据文件,有一百万行,看起来像
...
如果封闭块不存在,我可以使用LOAD/NEXT
一次读取一个员工项目(而不是将整个文件解析为结构化数据LOAD
)。如果存在封闭块,有什么方法可以做类似的事情吗?
如果我想回到以前访问过的项目怎么办?会不会有“结构性寻求”?
是否有一种可行的数据库解决方案可以用于满足这种对 Rebol 结构化数据的需求,甚至可能允许随机访问插入?
search - google cse-渲染搜索结果
我在我的网站上使用 Google CSE,我希望搜索结果的显示方式与标准方法不同。我发现了这个:
http://code.google.com/apis/customsearch/docs/snippets.html
我对如何根据自己的喜好设置结果样式的步骤有点困惑。我知道我必须首先在我的页面中创建结构化数据(即页面映射)。
第二步是什么意思
“在自定义搜索引擎的搜索结果中获取结构化数据。自定义搜索服务器可以返回搜索结果以及 XML 或 JSON 格式的结构化数据。”
第三步,我是否只复制自定义搜索元素中提供的代码?
提前致谢