1 绪论
1.2 数据模型
在数据库中用数据模型这个工具来抽象、表示和处理现实世界中的事物。
通俗地讲数据模型就是现实世界的抽象和模拟。
数据模型应满足三方面要求
能比较真实地模拟现实世界
容易为人所理解
便于在计算机上 实现
两大类数据模型
(1) 概念模型 也称信息模型,它是按用户的观点来对数据和信息建模,用于数据库设计。
(2) 逻辑模型和物理模型 按计算机系统的观点对数据建模,用于DBMS的实现。
逻辑模型主要包括网状模型、层次模型、关系模型、面向对象模型等,按计算机系统的观点对数据建模,用于DBMS实现。
物理模型是对数据最底层的抽象,描述数据在系统内部的表示方式和存取方法,在磁盘或磁带上的存储方式和存取方法。

概念模型
概念模型的用途
概念模型用于信息世界的建模
是现实世界到机器世界的一个中间层次
是数据库设计的有力工具
数据库设计人员和用户之间进行交流的语言
对概念模型的基本要求
较强的语义表达能力
能够方便、直接地表达应用中的各种语义知识
简单、清晰、易于用户理解
信息世界中的基本概念
(1) 实体(Entity)
客观存在并可相互区别的事物称为实体。可以是具体的人、事、物或抽象的概念。
(2) 属性(Attribute)
实体所具有的某一特性称为属性。一个实体可以由若干个属性来刻画。
(3) 码(Key)
唯一标识实体的属性集称为码
(4) 域(Domain)
属性的取值范围称为该属性的域。
(5) 实体型(Entity Type)
用实体名及其属性名集合来抽象和刻画同类实体称为实体型
例子:学生(学号、姓名、性别、出生年月)
(6) 实体集(Entity Set)
同一类型实体的集合称为实体集:
学号 | 姓名 | 性别 | 出生日期 |
---|---|---|---|
20021001 | 张三 | 男 | 1978-5-6 |
20021003 | 李四 | 女 | 1980-1-24 |
20021004 | 王五 | 男 | 1979-11-12 |
(7) 联系(Relationship)
现实世界:事物内部以及事物之间的联系
信息世界:实体内部的联系和实体之间的联系
两个实体型之间的联系
一对一联系(1 : 1)
实例
一个班级只有一个正班长,一个班长只在一个班中任职
定义:
如果对于实体集A中的每一个实体,实体集B中至多有一个(也可以没有)实体与之联系,反之亦然,则称实体集A与实体集B具有一对一联系,记为1:1

一对多联系(1 : n)
实例
一个班级中有若干名学生,每个学生只在一个班级中学习
定义:
如果对于实体集A中的每一个实体,实体集B中有n个实体(n≥0)与之联系,反之,对于实体集B中的每一个实体,实体集A中至多只有一个实体与之联系,则称实体集A与实体集B有一对多联系,记为1:n

注意一对多联系图中1的位置
多对多联系(m : n)
实例
课程与学生之间的联系:
一门课程同时有若干个学生选修
一个学生可以同时选修多门课程
定义:
如果对于实体集A中的每一个实体,实体集B中有n个实体(n≥0)与之联系,反之,对于实体集B中的每一个实体,实体集A中也有m个实体(m≥0)与之联系,则称实体集A与实体B具有多对多联系,记为m:n

用图形来表示两个实体型之间的三类联系

两个以上实体型之间的联系
若实体型E1,E2,…,En存在联系,对于实体型Ej(j=1,2,…,i-1,i+1,…,n)中的给定实体,最多只和Ei中的一个实体相联系,则我们说Ei与E1,E2,…,Ei-1,Ei+1,…,En之间的联系是一对多的
实例
课程、教师与参考书三个实体型
每一个教师可以讲授若干门课程,每门课程可以使用若干本参考书

两个以上实体型间的一对一联系
两个以上实体型间的多对多联系
单个实体型内的联系
同一实体集内的各实体之间的关系
一对多联系
实例
职工实体型内部具有领导与被领导的联系
某一职工(干部)“领导”若干名职工
一个职工仅被另外一个职工直接领导
这是一对多的联系

一对一联系和多对多联系
概念模型的一种表示方法
实体-联系方法(E-R方法)
E-R图
实体型
用矩形表示,矩形框内写明实体名。
属性
用椭圆形表示,并用无向边将其与相应的实体连接起来
联系
联系本身:
用菱形表示,菱形框内写明联系名,并用无向边分别与有关实体连接起来,同时在无向边旁标上联系的类型(1:1、1:n或m:n)

联系的表示方法

联系的属性
联系本身也是一种实体型,也 可以有属性。如果一个联系具有属性,则这些属性也要用无向边与该联系连接起来

举例
用E-R图表示某个工厂物资管理的概念模型
实体:
仓库: 仓库号、面积、电话号码
零件 :零件号、名称、规格、单价、描述
供应商:供应商号、姓名、地址、电话号码、帐号
项目:项目号、预算、开工日期
职工:职工号、姓名、年龄、职称
实体之间的联系如下:
一个仓库可以存放多种零件,一种零件可以存放在多个仓库中。用库存量来表示某种零件在某个仓库中的数量
一个仓库有多个职工当仓库保管员,一个职工只能在一个仓库工作
职工之间具有领导-被领导关系。即仓库主任领导若干保管员

数据模型的组成要素
数据结构
描述数据库的组成对象,以及对象之间的联系
描述的内容
与数据类型、内容、性质有关的对象
与数据之间联系有关的对象
数据结构是对系统静态特性的描述
数据操作
**对数据库中各种对象(型)的实例(值)允许执行的操作及有关的操作规则
数据操作的类型
查询
更新(包括插入、删除、修改)
数据模型对操作的定义
操作的确切含义
操作符号
操作规则(如优先级)
实现操作的语言
数据操作是对系统动态特性的描述
完整性约束条件
一组完整性规则的集合。
完整性规则:给定的数据模型中数据及其联系所具有的制约和储存规则,用以限定符合数据模型的数据库状态以及状态的变化,以保证数据的正确、有效、相容。
数据模型对完整性约束条件的定义
必须遵守的基本的通用的完整性约束条件。
例如,关系模型中,任何关系必须满足实体完整性和参照完整性两个条件。
反映具体应用所涉及的特定的约束条件。
例子:学校数据库中规定博士学生的年龄必须小于45岁
例子:银行的系统中规定帐号的余额不能小于1元
常用的数据模型
格式化模型
层次模型(Hierarchical Model)
网状模型(Network Model)
关系模型(Relational Model)
面向对象模型(Object Oriented Model)
对象关系模型(Object Relational Model)
层次模型
层次模型用树形结构来表示各类实体以及实体间的联系
层次模型
满足下面两个条件的基本层次联系的集合为层次模型
1.有且只有一个结点没有双亲结点,这个结点称为根结点
2.根以外的其它结点有且只有一个双亲结点
层次模型中的几个术语
根结点,双亲结点,兄弟结点,叶结点

表示方法
实体型:用记录类型描述,每个结点表示一个记录类型(实体)
属性:用字段描述,每个记录类型可包含若干个字段
联系:用结点之间的连线表示记录类型(实体)之间的一对多的父子联系

层次模型的数据操纵
查询 插入 删除 更新
层次模型的完整性约束条件
无相应的双亲结点值就不能插入子女结点值
如果删除双亲结点值,则相应的子女结点值也被同时删除
层次数据模型的存储结构
邻接法
按照层次树前序遍历的顺序把所有记录值依次邻接存放,即通过物理空间的位置相邻来实现层次顺序

链接法
用指引来反映数据之间的层次联系
子女-兄弟链接法
层次序列链接法
子女-兄弟链接法
每个记录设两类指针,分别指向最左边的子女(每个记录型对应一个)和最近的兄弟

层次序列链接法
按树的前序穿越顺序链接各记录值

层次模型的优缺点
优点
层次模型的数据结构比较简单清晰
查询效率高,性能优于关系模型,不低于网状模型
层次数据模型提供了良好的完整性支持
缺点
多对多联系表示不自然
对插入和删除操作的限制多,应用程序的编写比较复杂
查询子女结点必须通过双亲结点
网状模型
满足下面两个条件的基本层次联系的集合:
- 允许一个以上的结点无双亲;
- 一个结点可以有多于一个的双亲。
允许两个结点之间有多种联系(复合联系)
网状模型可以更直接地去描述现实世界,层次模型实际上是网状模型的一个特例
多对多联系在网状模型中的表示
用网状模型间接表示多对多联系
方法:将多对多联系直接分解成一对多联系
数据操作
网状数据库系统(如DBTG)对数据操纵加了一些限制,提供了一定的完整性约束
码:唯一标识记录的数据项的集合
支持双亲记录和子女记录之间某些约束条件
有些子女记录要求双亲记录存在才能插入,双亲记录删除时也连同删除。例如学生选课记录
网状数据模型的存储结构

网状数据模型的优缺点
优点
能更为直接地描述现实世界,如一个结点可以有多个双亲
具有良好的性能,存取效率较高
缺点
结构比较复杂,而且随着应用环境的扩大,数据库的结构就变得越来越复杂,不利于最终用户掌握
DDL、DML语言复杂,用户不容易使用
记录类型联系变动后涉及链接指针的调整,扩充和维护都比较复杂
关系模型
在用户观点下,关系模型中数据的逻辑结构是一张二维表,它由行和列组成。

关系(Relation)
一个关系对应通常说的一张表
元组(Tuple)
表中的一行即为一个元组
属性(Attribute)
表中的一列即为一个属性,给每一个属性起一个名称即属性名

主码(Key)
表中的某个属性组,它可以唯一确定一个元组。
域(Domain)
属性的取值范围。
分量
元组中的一个属性值。
关系模式
对关系的描述
关系名(属性1,属性2,…,属性n)
学生(学号,姓名,年龄,性别,系,年级)


数据操作是集合操作,操作对象和结果都是关系
查询 插入 删除 更新
完整性约束条件
实体完整性
参照完整性
用户定义的完整性
存储结构
实体及实体间的联系都用表来表示
表以文件形式存储
有的DBMS一个表对应一个操作系统文件
有的DBMS自己设计文件结构
关系数据模型的优缺点
优点
建立在严格的数学概念的基础上
可以描述一对一、一对多和多对多的联系
概念单一
实体和各类联系都用关系来表示
对数据的检索结果也是关系
存取路径对用户透明
用户只要指出“干什么”,不必详细说明“怎么干”
具有更高的数据独立性,更好的安全保密性
简化了程序员的工作和数据库开发建立的工作
缺点
存取路径对用户透明导致查询效率往往不如非关系数据模型
为提高性能,必须对用户的查询请求进行优化增加了开发DBMS的难度
关系模式->ER图
例:
E-R模型补充扩展
Movie database
Movie: title, year, length, genre
Stars: name, address
Studios: name, address
a studio contracts with a particular start to act in a particular movie for some salary

多实体集联系+多角色实体集
怎样表示Studio 2从studio 1租借某演员签约出演某电影?


怎样去掉联系Contracts的属性salary?

“Is a”联系
怎样表示电影的两个子类“动画片”和“枪战片”

1.3 数据库系统结构
分布式B/S结构数据库系统

数据库系统模式的概念
“型” 和“值” 的概念
型(Type) 对某一类数据的结构和属性的说明
值(Value) 是型的一个具体赋值
例如
学生记录型:
(学号,姓名,性别,系别,年龄,籍贯)
一个记录值:
(900201,李明,男,计算机,22,江苏)
模式(Schema)
数据库逻辑结构和特征的描述
是型的描述
反映的是数据的结构及其联系
模式是相对稳定的
实例(Instance)
模式的一个具体值
反映数据库某一时刻的状态
同一个模式可以有很多实例
实例随数据库中的数据的更新而变动
数据库系统的三级模式结构

模式(也称逻辑模式)
数据库中全体数据的逻辑结构和特征的描述
所有用户的公共数据视图,综合了所有用户的需求
一个数据库只有一个模式
模式的地位:是数据库系统模式结构的中间层
与数据的物理存储细节和硬件环境无关
与具体的应用程序、开发工具及高级程序设计语言无关
模式的定义
数据的逻辑结构(数据项的名字、类型、取值范围等)
数据之间的联系
数据有关的安全性、完整性要求
外模式(也称子模式或用户模式)
数据库用户(包括应用程序员和最终用户)使用的局部数据的逻辑结构和特征的描述
数据库用户的数据视图,是与某一应用有关的数据的逻辑表示
内模式(也称存储模式)
是数据物理结构和存储方式的描述
是数据在数据库内部的表示方式
一个数据库只有一个内模式
