1.1 数据、信息与数据处理
1.1.1 数据与信息
通常使用各种各样的物理符号来表示客观事物的特性和特征,这些符号及组合就是数据。数据的概念包括两个方面:数据内容和数据形式。数据内容是指所描述客观事物的具体特性,即数据的“值”;数据形式是指数据内容存储在媒体上的具体形式,即数据的“类型”,数据主要有数字、文本、声音、图形和图像等多种形式。例如,“张山”为数据内容,该数据的形式为文本。
信息是指数据经过加工处理后所获取的有用知识,信息是以某种数据形式表现的。数据和信息是两个相互联系但又相互区别的概念,数据是信息的具体表现形式,信息是数据有意义的表现。例如,股票大盘有很多公司业绩数据,红色数据表示上涨信息,绿色数据表示下跌信息。
1.1.2 数据处理
数据处理是计算机应用的一个主要发展方向,它涉及对各种不同形式的数据进行收集、存储、加工和传播等一系列活动。数据处理的核心问题是数据管理,即对数据的分类、组织、编码、存储、检索和维护等。
数据处理的发展过程大致经历了人工管理、文件系统、数据库系统及分布式数据库系统4个阶段,有时也把数据库系统阶段及分布式数据库系统阶段共称为数据库管理系统阶段。
1.人工管理阶段
20世纪50年代初为人工管理阶段,对数据的管理没有一定的格式,数据依附于处理。应用程序与数据之间的关系如图1-1所示。其缺点是:应用程序中的数据无法被其他程序利用;数据冗余;数据独立性、结构性差;数据不能长期保存。
图1-1 人工管理阶段的应用程序与数据
2.文件系统阶段
从20世纪50年代后期开始至60年代末为文件系统阶段。应用程序通过专门管理数据的软件即文件管理系统来使用数据。数据处理利用操作系统的文件管理功能,将相关数据按一定的规则构成文件。通过文件系统对文件中的数据进行存取、管理,实现数据的文件管理方式。应用程序与数据之间的关系如图1-2所示。其优点是:文件系统结构简单,在数据存取过程中几乎没有额外开销,并且可以按照用户的要求任意定制数据存储格式或存储复杂的数据结构。其缺点是:数据冗余度大;难以共享数据,容易造成数据的不一致;程序与数据缺乏独立性;系统不易扩充。
3.数据库系统阶段
从20世纪60年代末开始为数据库系统阶段。随着计算机软件技术的发展,出现了数据管理软件——数据库管理系统(Database Management System,DBMS)。在数据库系统阶段,应用程序和数据库之间,由数据库管理系统把所有应用程序中使用的相关数据汇集起来,按统一的数据模型,以记录为单位用文件形式存储在数据库中,为各个应用程序提供方便、快捷的查询和使用。应用程序与数据之间的关系如图1-3所示。其优点是:应用程序与数据间保持高度的独立性;数据具有完整性、一致性和安全性,并具有充分的共享性;能够简单、方便地实现数据库的管理和控制操作。
图1-2 文件系统阶段的应用程序与数据
图1-3 数据库系统阶段的应用程序与数据
4.分布式数据库系统阶段
在数据库系统阶段之后,随着网络技术的产生和发展,出现了分布式数据库系统(Distributed Database System,DDBS)。分布式数据库系统是地理上分布在计算机网络的不同结点,逻辑上属于同一系统的数据库系统。它不同于将数据存储在服务器上供用户共享存取的网络数据库系统,分布式数据库系统不仅能支持局部应用,存取本地结点或另一结点的数据,而且能支持全局应用,同时存取两个或两个以上结点的数据。分布式数据库系统的主要特点如下:
(1)数据是分布的。数据库中的数据分布在计算机网络的不同结点上,而不是集中在一个结点,区别于数据存放在服务器上由各用户共享的网络数据库系统。
(2)数据是逻辑相关的。分布在不同结点的数据逻辑上属于同一数据库系统,数据间相互关联,区别于计算机网络连接的多个独立数据库系统。
(3)结点的自治性。每个结点都有自己的计算机软硬件资源、数据库、局部数据库管理系统(Local Database Management System,LDBMS),因而能够独立地管理局部数据库。局部数据库中的数据可以仅供本结点用户存取和使用,也可供其他结点上的用户存取和使用,提供全局应用。
随着数据库技术的不断发展和应用领域的拓展,也出现了许多新型的数据库系统,除了上述的分布式数据库系统,还包括面向对象数据库系统、多媒体数据库系统、数据仓库、工程数据库等。