Access 2010数据库实用教程
上QQ阅读APP看书,第一时间看更新

2.1 数据处理技术简介

2.1.1 数据、信息和数据处理的基本概念

1.数据

数据(Data)是客观事物的一种抽象的、符号化的表示,即用一定的符号表示那些从观察或测量中所收集到的基本事实,采用什么符号完全是一种人为的规定,例如字符“吴小明”表示某人的姓名,数字21表示某人的年龄。

数据的概念在计算机领域中已经被大大拓宽。数据不仅包括数字、字符和其他特殊符号组成的文本形式的数据,而且还包括图形、图像、动画、声音、视频等多媒体数据。

数据有以下4个特征:

①数据有“类型”和“值”两个基本属性。

②数据受到数据类型和取值范围的约束。

③数据有定性和定量之分。

④数据应具有载体和多种表现形式。

2.信息

信息(Infomation)是指经过加工处理的数据。信息具有实效性、有用性、知识性。信息是客观世界的反映。数据只有经过提炼和抽象后才能成为信息。信息仍以数据的形式表示。信息有3个特征:

①信息能反映客观事实,能预测未发生的事物的状态并能用于指挥控制事物发展的决策。

②信息能在时间和空间上被传递。

③信息需要一定的表现形式。

数据是载荷信息的物理符号(或称为载体)。数据用于描述事物,能够传递或表示信息。然而,并不是任何数据都能表示信息。例如,无法破译的密码不能传递或表示任何信息。即使同样的数据,不同的人也可能有不同的理解和解释,以致产生不同的决策。

信息是抽象的,是反映客观现实世界的知识,并不随着数据设备所决定的数据形式而改变。由于符号的多样性,记录数据的形式具有可选择性,但用不同的数据形式仍可表示同样的信息。例如,同样一条新闻在报纸中以文字的形式刊登,在电台中以声音的形式广播,在电视中以视频影像的形式放映,在计算机网络中以通信的形式传播。当然,由于信息载体的形式不同,所达到的传播效果也不同。因此,应使用适当的数据形式来传递或表示信息,以达到最好的效果。

3.数据处理

数据处理是指将数据加工并转换成信息的过程。数据处理也称为信息处理。通过处理数据可以获得信息,通过分析和筛选信息可以产生决策。在计算机中,通过存储器保存数据;通过软件来管理数据;通过应用程序来加工处理数据并且获取有用信息。

数据处理的核心是数据管理。计算机对数据的管理是指对各种数据进行分类、组织、编码、存储、检索和维护等操作。

2.1.2 数据处理技术的发展历程

计算机在数据管理领域的应用经历了由低级向高级的发展过程。数据管理技术随着计算机硬件技术、软件技术的发展和计算机应用范围的拓宽而发展。数据处理技术的发展经历了人工管理、文件系统管理、数据库系统管理3个阶段。

1.人工管理阶段

20世纪50年代中期以前,计算机主要用于科学计算。当时的硬件条件较落后,外存只能用纸带、卡片、磁带,没有磁盘等可以随机访问和直接存取的介质;在软件方面,还没有操作系统和专门管理数据的软件,数据由计算或处理它的程序自行携带,一个程序中的数据无法被其他程序使用,因此程序与程序之间存在大量的重复数据,数据冗余较多。

2.文件系统管理阶段

20世纪50年代后期到60年代中期,计算机的应用范围逐渐扩大,不仅用于科学计算,而且还大量进入管理领域。在这个时期还产生了可以直接存取的磁鼓、磁盘等外围存储设备,也出现了高级语言和操作系统,在操作系统中有了专门的数据管理软件,即文件系统。

在文件系统阶段,程序和数据有了一定的独立性,程序和数据分开存储,有了程序文件和数据文件的区别。数据文件可以长期保存在外存中多次利用。程序只需要通过文件名就可以访问数据文件,程序员可集中精力进行数据处理的算法研究,而不必关心记录在存储器上的地址和内外存交换数据的过程。

文件系统中的数据文件是为了满足特定业务或某部门的专门需要而设计的,其服务于某一特定应用程序,数据和程序相互依赖性较强。同一数据项可能重复出现在多个文件中,导致数据冗余度相对较大,这不仅浪费了存储空间,而且增加了系统开销,数据访问的效率不高。更严重的是,由于数据不能统一修改,容易造成数据的不一致。文件系统存在的问题阻碍了数据处理技术的发展,不能满足日益增长的信息需求,这是数据库数据管理技术产生的原动力,也是数据库系统产生的前景。

3.数据库系统管理阶段

20世纪60年代后期以来,计算机用于管理的规模更加庞大,应用越来越广泛,需要计算机管理的数据量急剧增长,同时多种应用、多种语言互相覆盖地共享数据集合的要求越来越强烈。硬件有了大容量磁盘,硬件价格不断下降,软件价格上升,为编制和维护系统软件及应用程序所需的成本相对增加。在处理方式上,联机实时处理要求更多,并开始提出和考虑分布处理。在这种前景下,以文件系统作为数据管理手段已不能满足应用的需求,于是为解决多用户、多应用共享数据的需求,使数据为尽可能多的应用提供服务,出现了数据技术和统一管理数据的专门软件系统——数据库管理系统。

1968年美国IBM公司研制成功的数据管理系统(Information Management System,IMS)标志着数据处理技术进入了数据库系统阶段。在数据库系统管理阶段,系统可以有效地管理和存取大量的数据资源,从而提高了数据的共享性,使多个用户能够同时访问数据库中的数据;减少了数据的冗余,保证数据的一致性和完整性。另外,还提供了数据与应用程序的独立性,减少了应用程序的开发和维护代价。

数据管理的3个发展阶段的比较如表2-1所示。

表2-1 数据管理的3个阶段的比较

20世纪80年代中后期,计算机技术在社会各行各业得到广泛应用,数据存储不断膨胀,对数据库技术提出了更高的要求。关系型数据库已经不能完全满足需求,于是产生了新一代数据库技术。主要有以下特征:

①支持数据管理、对象管理和知识管理。

②保持和继承了第三代数据库系统的技术。

③对其他系统开放,支持数据库语言标准,支持标准网络协议,有良好的可移植性、可连接性、可扩展性和互操作性等。

新一代数据库支持多种数据模型(如关系模型和面向对象的模型),并和诸多新技术相结合(如分布处理技术、并行计算技术、人工智能技术、多媒体技术、模糊技术),广泛应用于多个领域(如商业管理、GIS、计划统计等),由此也衍生出多种新的数据库技术。

2.1.3 数据处理新技术

1.大数据

随着数据存储能力的不断提升,如今的信息量越来越大,形成了庞大的数据,也称大数据(Big Data)。对大数据的分析,通过数据挖掘技术提取所需要的信息,按照挖掘需求在大数据中进行数据采集、检索和整合,并对数据进行筛选,包括去噪、取样、过滤、合并、标准化等去除冗余和多余数据,建立待处理数据集。对数据集进行处理和分析,包括线性、非线性、因子、序列分析、线性回归、变量曲线、双变量统计等处理和分析,按照一定方式对数据进行分类,并分析数据间及类别间的关系等,然后对分类后的数据通过人工神经网络、决策树、遗传算法等方法揭示数据间的内在联系,发现深层次的模式、规则及知识。大数据主要有以下特征:

①数据体量巨大。百度资料表明,其新首页导航每天需要提供的数据超过1.5PB(1PB=1024TB),这些数据如果打印出来将超过5千亿张A4纸。有资料证实,截至目前,人类生产的所有印刷材料的数据量仅为200PB。

②数据类型多样。现在的数据类型不仅是文本形式,更多的是图片、视频、音频、地理位置信息等多类型的数据,个性化数据占绝对多数。

③处理速度快。数据处理遵循“1秒定律”,可从各种类型的数据中快速获得高价值的信息。

④价值密度低。以视频为例,1h的视频,在不间断的监控过程中,可能有用的数据仅仅只有一两秒。

2.云计算

云计算(Cloud Computing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。狭义云计算指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。它意味着计算能力也可作为一种商品通过互联网进行流通。云计算主要特点如下:

①云计算系统提供的是服务,服务的实现机制对用户透明,用户无需了解云计算的具体机制,就可以获得需要的服务。

②用冗余方式提供可靠性,云计算系统由大量商用计算机组成机群向用户提供数据处理服务。随着计算机数量的增加,系统出现错误的概率大大增加。在没有专用的硬件可靠性部件的支持下,采用软件的方式,即数据冗余和分布式存储来保证数据的可靠性。

③高可用性,通过集成海量存储和高性能的计算能力,云能提供一定满意度的服务质量。云计算系统可以自动检测失效结点,并将失效结点排除,不影响系统的正常运行。

④高层次的编程模型,云计算系统提供高级别的编程模型。用户通过简单学习,就可以编写自己的云计算程序,在“云”系统上执行,满足自己的需求。现在云计算系统主要采用Map-Reduce模型。

⑤经济性,组建一个采用大量的商业机组成的机群相对于同样性能的超级计算机花费的资金要少很多。

3.物联网

物联网是新一代信息技术的重要组成部分,其英文名称是The Internet of things。顾名思义,物联网就是物物相连的互联网。这有两层意思:第一,物联网的核心和基础仍然是互联网,是在互联网基础上的延伸和扩展的网络;第二,其用户端延伸和扩展到了任何物品与物品之间,进行信息交换和通信。因此,物联网的定义是通过射频识别(RFID)、红外感应器、全球定位系统、激光扫描器等信息传感设备,按约定的协议,把任何物品与互联网相连接,进行信息交换和通信,以实现对物品的智能化识别、定位、跟踪、监控和管理的一种网络。

与传统的互联网相比,物联网有其鲜明的特征,物联网产业涉及的关键技术主要包括感知技术、网络和通信技术、信息智能处理技术及公共技术。

①感知技术。通过多种传感器、RFID、二维码、定位、地理识别系统、多媒体信息等数据采集技术,实现外部世界信息的感知和识别。

物联网上部署了海量的多种类型传感器,每个传感器都是一个信息源,不同类别的传感器所捕获的信息内容和信息格式不同。传感器获得的数据具有实时性,按一定的频率周期性的采集环境信息,不断更新数据。

②网络和通信技术。通过广泛的互联功能,实现感知信息高可靠性、高安全性进行传送,包括各种有线和无线传输技术、交换技术、组网技术、网关技术等。

物联网技术的重要基础和核心仍旧是互联网,通过各种有线和无线网络与互联网融合,将物体的信息实时准确地传递出去。在物联网上的传感器定时采集的信息需要通过网络传输,由于其数量极其庞大,形成了海量信息,在传输过程中,为了保障数据的正确性和及时性,必须适应各种异构网络和协议。

③信息智能处理技术。通过应用中间件提供跨行业、跨应用、跨系统的信息协同及共享和互通的功能,包括数据存储、并行计算、数据挖掘、平台服务、信息呈现、服务体系架构、软件和算法技术、云计算、数据中心等。

物联网不仅提供了传感器的连接,其本身也具有智能处理的能力,能够对物体实施智能控制。物联网将传感器和智能处理相结合,利用云计算、模式识别等各种智能技术,扩充其应用领域。从传感器获得的海量信息中分析、加工和处理出有意义的数据,以适应不同用户的不同需求,发现新的应用领域和应用模式。

④公共技术。主要是标识与解析、安全技术、网络管理、服务质量(QoS)管理等公共技术。