5

我很抱歉,因为我不知道这更多的是属于mathoverflow的数学问题,还是属于这里的计算机科学问题。

也就是说,我相信我理解数据、信息和知识之间的根本区别。我的理解是信息既承载数据又承载意义。我不清楚的一件事是信息是否数据。信息被认为是一种特殊的数据,还是完全不同的东西?

4

5 回答 5

6

和是基于价值的概念,用于以data主观方式对特定信息集的一般“简洁性”和“有用性”进行分类。这些词没有确切的含义,因为它们与信息处理的基本目的和方法有关;在信息论领域,这些完全没有意义,因为这三者都是同一个东西:“信息”的集合(在信息论的意义上)。 然而,在上下文中,它们对于总结信息集的一般性质是有用的,如下面的松散解释。informationknowlege

信息是从数据中获得(或有时是诱导出来的),但它可以更丰富、更清晰(其中一些值已被纠正)和“更简单”(其中一些不相关的数据已被删除)。所以在集合论的意义上, 信息不是数据的一个子集,而是一个单独的集合[它通常在某种程度上与数据相交,但也可以有自己的元素]。

知识(有时称为洞察力)是又一个层次,它基于信息,也不是信息的 [集合论] 子集。Indeed Knowledge 通常不会直接引用信息元素,而是讲述有关信息/数据的“元故事”。

沿着数据 -> 信息 -> 知识链,较高级别是较低级别的子集的毫无根据的想法,可能源于 [通常] [IT 感知] 信息量减少的事实。但从质量上讲,这个信息是不同的,因此没有真正的 [集合论] 子集关系。

示例

  • 来自华尔街的原始证券交易所数据是……数据
    一个“数据的海洋”!有人很难直接从这些数据中找到他/她需要的东西。这些数据可能需要标准化。例如,价格信息有时可能以 1/32 美元精度的文本字符串表示,在其他情况下,价格可能以 1/8 美元精度的真正二进制整数形式出现。此外,指示买方 ID 或卖方 ID 的字段也可能包含拼写错误,因此指向错误的卖方/买方。等等

  • 从上面制作的电子表格是......信息
    对数据应用了各种过程: -清理
    /更正各种值
    -交叉引用(例如查找相关代码,例如添加一列以显示个人/公司的实际名称旁边的买方 ID 列)
    - 当与同一事件有关的重复记录(但说来自不同来源)用于相互证实时合并,但也合并为一个记录。
    -聚合:例如对给定股票的所有交易价值求和(而不是显示所有单独的交易。
    所有这些(以及一些)将数据转化为信息,即 [IT 感] 易于使用的信息体,人们可以在其中快速找到一些“数据”,例如 IBM 股票的开盘价和收盘价2009 年 6 月 8 日。
    请注意,虽然使用起来更方便,部分更准确/精确,而且还归结起来,但其中并没有真正的 [IT 感] 信息,无法通过相对简单的方式从原始信息中定位或计算出来(如果只是艰苦的)过程。

  • 金融分析师的报告可能包含……知识
    例如,如果报告表明 [虚假示例] 每当石油价格超过某个阈值时,黄金的价值就会开始下跌,但随后又迅速再次飙升,大约在价格咖啡和茶稳定。这种特殊的洞察力构成了知识。这种知识可能一直隐藏在数据中,但只有在应用一些花哨的统计分析和/或需要人类专家的帮助来发现或确认这些模式时才会变得明显。

顺便说一句,在信息论意义上的信息一词中,“数据”、“信息”和“知识”都包含[IT意义上的]信息。
一个人可能会走上滑坡,说“随着我们沿着链条往上走,熵会减少”,但这只是大致正确,因为

  • 熵减少与“对人类的有用性”没有直接或系统的联系
    (一个典型的例子是压缩文本文件的熵较少,但阅读起来没有乐趣)
  • 实际上存在信息丢失(除了熵损失)
    (例如,当数据被聚合时,关于单个记录的 [IT 感觉] 信息丢失)
  • 特别是在信息 -> 知识的情况下,抽象水平发生了变化

最后一点(如果我还没有把每个人都弄糊涂的话……)是这个data->info->knowledge链实际上与[IT-sense]信息的预期用途/目的相关的想法。
ewernli在下面的评论中提供了拼写检查器的示例,即当重点是英语拼写时,华尔街天才最有见地的论文只是一串单词,实际上是“原始数据”,其中一些需要改进(沿着正字法目的链。
同样,使用数千篇报纸文章的语言学家通常(我们希望......)至少包含一些见解/知识(在一般意义上),可能只考虑这些文章的原始数据,这将帮助他/她自动创建法语-德语词典(这将是信息),当他从事该项目时,他可能会发现两种语言之间常用词使用的系统语义转变,从而深入了解不同的文化。

于 2010-03-13T15:46:46.607 回答
1

首先非常仔细地定义信息和数据。

什么是信息,什么是数据,很大程度上取决于上下文。一个极端的例子是你在一个聚会上的照片,你通过电子邮件发送。对您来说,它是信息,但对于 ISP,它只是要传递的数据。

有时只需添加正确的上下文即可将数据更改为信息。

所以,回答你的问题:不,信息不是数据的子集。至少可以是以下。

  1. 超集,当您添加上下文时

  2. 一个子集,大海捞针问题

  3. 数据的函数,例如在摘要中

可能还有更多的情况。

于 2010-03-13T16:04:40.087 回答
1

我是这样看的...

数据是肮脏和原始的。你可能会吃得太多。

... Jason ... 27 ... Denton ...

信息是您需要的、有组织且有意义的数据。

Jason.age=27
Jason.city=Denton

知识就是为什么会有 wiki、博客:跟踪见解和经验。请注意,这些是人类(和社区)属性。除了可能是一个奇怪的科学项目,Facebook 上没有计算机告诉人们它相信什么。

于 2010-03-13T16:10:47.947 回答
1

信息是数据的增强

  • 数据是惰性的
  • 信息是可操作的

请注意,没有数据的信息只是一种观点;-)

于 2010-03-13T16:43:12.903 回答
0

如果您有某种方式来表示使其成为信息的附加内容,则信息可能是数据。试图“理解”书面文本的程序可能会将输入文本转换为允许对该文本含义进行更复杂处理的格式。当在整个处理系统的上下文中理解时,这种转换格式是一种表示信息的数据。从系统外部它表现为数据,而在系统内部它是正在被理解的信息。

于 2010-03-13T16:05:25.397 回答