数据类型:值的集合-中文百科频道

基本简介

数据类型在数据结构中的定义是一个值的集合以及定义在这个值集上的一组操作。变量是用来存储值的所在处；

它们有名字和数据类型。变量的数据类型决定了如何将代表这些值的位存储到计算机的内存中。在声明变量时也可指定它的数据类型。所有变量都具有数据类型，以决定能够存储哪种数据。

根据缺省规定，如果在声明中没有说明数据类型，则令变量的数据类型为Variant。Variant数据类型很象一条变色龙—它可在不同场合代表不同数据类型。当指定变量为Variant变量时，不必在数据类型之间进行转换，Visual Basic会自动完成各种必要的转换。

但是，如果知道变量确实总是存储特定类型的数据，并且还声明了这种特定类型的变量，则Visual Basic会以更高的效率处理这个数据。例如，存储人名的变量最好表示成String数据类型，因为名字总是由字符组成。

除变量外，数据类型也用于其它场合。在给属性赋值时，这个值就有数据类型；函数的参数也有数据类型。事实上，在Visual Basic中，凡是与数据有关的东西就与数据类型有关。

也可声明任何基本类型的数组。

基本属性

(1)标识类属性：适用于数据元标识的属性。包括中文名称、英文名称、中文全拼、内部标识符、版本、注册机构、同义名称、语境。

(2)定义类属性：描述数据元语义方面的属性。包括定义、对象类词、特性词、应用约束。

(3)关系类属性：描述各数据元之间相互关联和（或）数据元与模式、数据元概念、对象、实体之间关联的属性。包括分类方案、分类方案值、关系。

(4)表示类属性：描述数据元表示方面的属性。包括表示词、数据类型、数据格式、值域、计量单位。

(5)管理类属性：描述数据元管理与控制方面的属性。包括状态、提交机构、批准日期、备注。

元素组成

数据元一般由对象类、特性和表示3部分组成：

(1)对象类(Object Class)。是现实世界或抽象概念中事物的集合，有清楚的边界和含义，并且特性和其行为遵循同样的规则而能够加以标识。

(2)特性(Property)。是对象类的所有个体所共有的某种性质，是对象有别于其他成员的依据。

(3)表示(Representation)。是值域、数据类型、表示方式的组合，必要时也包括计量单位、字符集等信息。

对象类是我们所要研究、收集和存储相关数据的实体，例如人员、设施、装备、组织、环境、物资等。特性是人们用来区分、识别事物的一种手段，例如人员的姓名、性别、身高、体重、职务，坦克的型号、口径、高度、长度、有效射程等。表示是数据元被表达的方式的一种描述。表示的各种组成成分中，任何一个部分发生变化都将产生不同的表示，例如人员的身高用“厘米”或用“米”作为计量单位，就是人员身高特性的两种不同的表示。数据元的表示可以用一些具有表示含义的术语作标记，例如名称、代码、金额、数量、日期、百分比等。

数据元基本模型中，对象类对应于数据模型中的实体、特性和表示对应于数据模型中的属性‘。

元素分类

数据元的类型按不同的分类方式可以作如下分类：

（1）按数据元的应用范围

分为通用数据元、应用数据元（或称“领域数据元”）和专用数据元。通用数据元是与具体的对象类无关的、可以在多种场合应用的数据元。应用数据元是在特定领域内使用的数据元。应用数据元与通用数据元是相对于一定的应用环境而言的，两者之间并没有本质的区别，应用数据元是被限定的通用数据元，通用数据元是被泛化的应用数据元，随环境的变化彼此可以相互转化。专用数据元是指与对象类完全绑定、只能用来描述该对象类的某个特性的数据元。专用数据元包含了数据元的所有组成部分，是“完整的”数据元。

（2）按数据元值的数据类型

可分为文字型数据元与数值型数据元。例如人的姓名是用文字表示的，属于文字型数据元；人的身高是用数值表示的，属于数值型数据元。

（3）按数据元中数据项的多少

可分为简单数据元和复合数据元。简单数据元由一个单独的数据项组成；复合数据元是由2个及以上的数据项组成的数据元，即由2个以上的数据元组成。组成复合数据元的数据元称为成分数据元。虽然数据元一般被认为是不可再分的数据的基本单元，而复合数据元是由两个以上的数据元组成的，但是在实际应用中复合数据元一般被当作不可分割的整体来使用，所以复合数据元仍然可以看作是数据的基本单元，即数据元。例如数据元“日期时间”是一个复合数据元，表示某一天的某一时刻，它由“日期”和“时间”两个数据元组成。

命名规则

数据元的名称是为了方便人们的使用和理解而赋予数据元的语义的、自然语言的标记。一个数据元是由对象类、特性、表示3个部分组成的，相应地，一个数据元的名称是由对象类术语、特性术语、表示术语和一些描述性限定术语组成的，数据元的命名规则主要对各术语成分的含义、约束、组合方式等进行规范。

数据元的命名规则主要包括以下内容：

1、语义规则：规定数据元名称的组成成分，使名称的含义能够准确的传达。

(1)对象类术语表示作战仿真领域内的事物或概念，在数据元中占有支配地位。

(2)专用数据元的名称中必须有且仅有一个对象类术语。

(3)特性术语用来描述数据元的特性部分，表示对象类的显著的、有区别的特征。

(4)数据元名称中必须有且仅有一个特性术语。

(5)表示术语用来概括的描述数据元的表示成分。

(6)数据元名称需要有且仅有一个表示术语。

(7)限定术语是为了使一个数据元名称在特定的相关环境中具有唯一性而添加的限定性描述。限定术语是可选的。对象类术语、特性术语和表示术语都可以用限定术语进行描述。

2、句法规则：规定数据元名称各组成成分的组合方式。

(1)对象类术语应处于名称的第1（最左）位置。

(2)特性术语应处于第2位置。

(3)表示术语应处于最后位置。当表示术语与特性术语有重复或部分重复时，在不妨碍语义精确理解的前提下，可以省略表示术语。

(4)限定术语应位于被限定成分的前面。

3、唯一性规则：防止出现同名异义现象。

在同一个相关环境中所有数据元名称应是唯一的。为规范数据元的命名，除了需要遵守上述的命名规则外，还需要对数据元名称各成分的术语作统一的规范。数据元名称中的术语应采用仿真领域标准、公认的术语，在数据元注册系统中可以构建一个仿真领域的术语字典，作为数据元命名时各术语成分的统一来源。

元素区别

数据元与元数据是两个容易混淆的概念。元数据用来描述数据的内容、使用范围、质量、管理方式、数据所有者、数据来源、分类等信息。它使得数据在不同的时间、不同的地点，都能够被人们理解和使用。元数据也是一种数据，也可以被存储、管理和使用。

数据元是一种用来表示具有相同特性数据项的抽象“数据类型”。对于一个数据集而言，元数据侧重于对数据集总体的内容、质量、来源等外部特征进行描述，而数据元则侧重于对数据集内部的基本元素的“名、型、值”等特性进行定义。元数据只用来定义和描述已有的数据，数据元则可以用来指导数据模型的构建，进而产生新数据。

为了使数据元容易被人们理解和交流，需要用一种特定格式的数据对数据元进行描述，这种用来描述数据元的特定格式的数据就是数据元的元数据。数据的提供者为使数据能够被其他人理解和使用，在提供数据的同时需要同时提供描述该数据的元数据，数据元的元数据是其中的一个重要的组成部分。

元素提取

自上而下提取法

对于新建系统的数据元提取，一般适用这种“自上而下”的提取法。基本步骤是，在流程和功能分析的基础上，通过建模分析，确立关心的“对象”。在概念数据模型和逻辑数据模型的基础上，分析提取数据元及其属性。具体标识如下信息：

(1)确定数据元的来源和上下文；

(2)标识数据元概念所基于的对象和特性，形成数据元概念；

(3)定义并标识包含数据值的数据元；

(4)标识数据值所表示的值域和允许的值；

(5)对数据元进行分类等。

自下而上提取法

自下而上提取法也称逆向工程，对于已建系统的数据元提取，一般适用这种“自下而上”提取法。在这种情况下，数据元直接来自各个信息系统。数据元创建者依据数据元标准化方法，对信息系统及相关资源的数据，在分析、梳理的基础上，归纳整理出数据元；根据数据元的实际应用，阐明并写出相关数据元在采集、存储和交换过程中各个属性以及属性的约束要求；描述和定义各个属性所需要的属性描述符及其约束要求；根据给定的命名、定义、标识规则和表示规范，形成数据元。具体的步骤如下：

1、理解数据元，自下而上提取法的第1步就是获取对数据元的理解：

（1）与该数据元有关的有哪些数据？

（2）是否有数据值得定义或描述？

（3）有没有允许值或者实例？

（4）数据值是通过算术公式计算还是统计得出的？

2、内容研究，在研究数据元的基本属性之前，应对下列问题做出研究：

（1）该数据元是否在国际、国内或者其他组织标准中进行了定义？

（2）该数据元是否已经存在于注册系统中，有没有重新应用的潜力？

（3）根据应用场景或上下文，确定数据元的定义。

（4）根据应用场景或上下文，确定数据元的允许值和值域。

（5）根据应用场景或上下文，确定数据元的表示词类。

（6）根据应用场景或上下文，确定数据元的名称和标识符。

（7）根据应用场景或上下文，确定数据元的其他属性。

识别方法

为优化数据类型识别技术,进一步完善数据类型识别的方法,改善当前数据类型识别难以识别出复合文件的问题。通过对8种常见的数据类型进行实验,初步选定朴素贝叶斯等几种分类算法,并提出基于支持向量机（Support Vector Machine,SVM）的多方面参数选定方法,然后依据新的数据类型识别方法与传统文件类型分别进行对比实验,同时确定数据类型识别的函数分析方法。通过实验可知,基于SVM支持向量机算法的数据类型识别方法建模时间长,但识别率高,被认定为以后要采用的新的基于机器学习的数据类型识别方法。

数据类型