數據類型

數據類型

值的集合
數據類型在數據結構中的定義是一組性質相同的值的集合以及定義在這個值集合上的一組操作的總稱。變量是用來存儲值的所在處,它們有名字和數據類型。變量的數據類型決定了如何将代表這些值的位存儲到計算機的内存中。在聲明變量時也可指定它的數據類型。所有變量都具有數據類型,以決定能夠存儲哪種數據。數據類型包括原始類型、多元組、記錄單元、代數數據類型、抽象數據類型、參考類型以及函數類型。
    中文名:數據元 外文名:Data element 别名:數據類型 被認為:是不可再分的最小數據單元

基本簡介

數據類型在數據結構中的定義是一個值的集合以及定義在這個值集上的一組操作。變量是用來存儲值的所在處;

它們有名字和數據類型。變量的數據類型決定了如何将代表這些值的位存儲到計算機的内存中。在聲明變量時也可指定它的數據類型。所有變量都具有數據類型,以決定能夠存儲哪種數據。

根據缺省規定,如果在聲明中沒有說明數據類型,則令變量的數據類型為Variant。Variant數據類型很象一條變色龍—它可在不同場合代表不同數據類型。當指定變量為Variant變量時,不必在數據類型之間進行轉換,Visual Basic會自動完成各種必要的轉換。

但是,如果知道變量确實總是存儲特定類型的數據,并且還聲明了這種特定類型的變量,則Visual Basic會以更高的效率處理這個數據。例如,存儲人名的變量最好表示成String數據類型,因為名字總是由字符組成。

除變量外,數據類型也用于其它場合。在給屬性賦值時,這個值就有數據類型;函數的參數也有數據類型。事實上,在Visual Basic中,凡是與數據有關的東西就與數據類型有關。

也可聲明任何基本類型的數組。

基本屬性

(1)标識類屬性:适用于數據元标識的屬性。包括中文名稱、英文名稱、中文全拼、内部标識符、版本、注冊機構、同義名稱、語境。

(2)定義類屬性:描述數據元語義方面的屬性。包括定義、對象類詞、特性詞、應用約束。

(3)關系類屬性:描述各數據元之間相互關聯和(或)數據元與模式、數據元概念、對象、實體之間關聯的屬性。包括分類方案、分類方案值、關系。

(4)表示類屬性:描述數據元表示方面的屬性。包括表示詞、數據類型、數據格式、值域、計量單位。

(5)管理類屬性:描述數據元管理與控制方面的屬性。包括狀态、提交機構、批準日期、備注。

元素組成

數據元一般由對象類、特性和表示3部分組成:

(1)對象類(Object Class)。是現實世界或抽象概念中事物的集合,有清楚的邊界和含義,并且特性和其行為遵循同樣的規則而能夠加以标識。

(2)特性(Property)。是對象類的所有個體所共有的某種性質,是對象有别于其他成員的依據。

(3)表示(Representation)。是值域、數據類型、表示方式的組合,必要時也包括計量單位、字符集等信息。

對象類是我們所要研究、收集和存儲相關數據的實體,例如人員、設施、裝備、組織、環境、物資等。特性是人們用來區分、識别事物的一種手段,例如人員的姓名、性别、身高、體重、職務,坦克的型号、口徑、高度長度、有效射程等。表示是數據元被表達的方式的一種描述。表示的各種組成成分中,任何一個部分發生變化都将産生不同的表示,例如人員的身高用“厘米”或用“米”作為計量單位,就是人員身高特性的兩種不同的表示。數據元的表示可以用一些具有表示含義的術語作标記,例如名稱、代碼、金額、數量、日期、百分比等。

數據元基本模型中,對象類對應于數據模型中的實體、特性和表示對應于數據模型中的屬性‘。

元素分類

數據元的類型按不同的分類方式可以作如下分類:

(1)按數據元的應用範圍

分為通用數據元、應用數據元(或稱“領域數據元”)和專用數據元。通用數據元是與具體的對象類無關的、可以在多種場合應用的數據元。應用數據元是在特定領域内使用的數據元。應用數據元與通用數據元是相對于一定的應用環境而言的,兩者之間并沒有本質的區别,應用數據元是被限定的通用數據元,通用數據元是被泛化的應用數據元,随環境的變化彼此可以相互轉化。專用數據元是指與對象類完全綁定、隻能用來描述該對象類的某個特性的數據元。專用數據元包含了數據元的所有組成部分,是“完整的”數據元。

(2)按數據元值的數據類型

可分為文字型數據元與數值型數據元。例如人的姓名是用文字表示的,屬于文字型數據元;人的身高是用數值表示的,屬于數值型數據元。

(3)按數據元中數據項的多少

可分為簡單數據元和複合數據元。簡單數據元由一個單獨的數據項組成;複合數據元是由2個及以上的數據項組成的數據元,即由2個以上的數據元組成。組成複合數據元的數據元稱為成分數據元。雖然數據元一般被認為是不可再分的數據的基本單元,而複合數據元是由兩個以上的數據元組成的,但是在實際應用中複合數據元一般被當作不可分割的整體來使用,所以複合數據元仍然可以看作是數據的基本單元,即數據元。例如數據元“日期時間”是一個複合數據元,表示某一天的某一時刻,它由“日期”和“時間”兩個數據元組成。

命名規則

數據元的名稱是為了方便人們的使用和理解而賦予數據元的語義的、自然語言的标記。一個數據元是由對象類、特性、表示3個部分組成的,相應地,一個數據元的名稱是由對象類術語、特性術語、表示術語和一些描述性限定術語組成的,數據元的命名規則主要對各術語成分的含義、約束、組合方式等進行規範。

數據元的命名規則主要包括以下内容:

1、語義規則:規定數據元名稱的組成成分,使名稱的含義能夠準确的傳達。

(1)對象類術語表示作戰仿真領域内的事物或概念,在數據元中占有支配地位。

(2)專用數據元的名稱中必須有且僅有一個對象類術語。

(3)特性術語用來描述數據元的特性部分,表示對象類的顯著的、有區别的特征。

(4)數據元名稱中必須有且僅有一個特性術語。

(5)表示術語用來概括的描述數據元的表示成分。

(6)數據元名稱需要有且僅有一個表示術語。

(7)限定術語是為了使一個數據元名稱在特定的相關環境中具有唯一性而添加的限定性描述。限定術語是可選的。對象類術語、特性術語和表示術語都可以用限定術語進行描述。

2、句法規則:規定數據元名稱各組成成分的組合方式。

(1)對象類術語應處于名稱的第1(最左)位置。

(2)特性術語應處于第2位置。

(3)表示術語應處于最後位置。當表示術語與特性術語有重複或部分重複時,在不妨礙語義精确理解的前提下,可以省略表示術語。

(4)限定術語應位于被限定成分的前面。

3、唯一性規則:防止出現同名異義現象。

在同一個相關環境中所有數據元名稱應是唯一的。為規範數據元的命名,除了需要遵守上述的命名規則外,還需要對數據元名稱各成分的術語作統一的規範。數據元名稱中的術語應采用仿真領域标準、公認的術語,在數據元注冊系統中可以構建一個仿真領域的術語字典,作為數據元命名時各術語成分的統一來源。

元素區别

數據元與元數據是兩個容易混淆的概念。元數據用來描述數據的内容、使用範圍、質量、管理方式、數據所有者、數據來源、分類等信息。它使得數據在不同的時間、不同的地點,都能夠被人們理解和使用。元數據也是一種數據,也可以被存儲、管理和使用。

數據元是一種用來表示具有相同特性數據項的抽象“數據類型”。對于一個數據集而言,元數據側重于對數據集總體的内容、質量、來源等外部特征進行描述,而數據元則側重于對數據集内部的基本元素的“名、型、值”等特性進行定義。元數據隻用來定義和描述已有的數據,數據元則可以用來指導數據模型的構建,進而産生新數據。

為了使數據元容易被人們理解和交流,需要用一種特定格式的數據對數據元進行描述,這種用來描述數據元的特定格式的數據就是數據元的元數據。數據的提供者為使數據能夠被其他人理解和使用,在提供數據的同時需要同時提供描述該數據的元數據,數據元的元數據是其中的一個重要的組成部分。

元素提取

自上而下提取法

對于新建系統的數據元提取,一般适用這種“自上而下”的提取法。基本步驟是,在流程和功能分析的基礎上,通過建模分析,确立關心的“對象”。在概念數據模型和邏輯數據模型的基礎上,分析提取數據元及其屬性。具體标識如下信息:

(1)确定數據元的來源和上下文;

(2)标識數據元概念所基于的對象和特性,形成數據元概念;

(3)定義并标識包含數據值的數據元;

(4)标識數據值所表示的值域和允許的值;

(5)對數據元進行分類等。

自下而上提取法

自下而上提取法也稱逆向工程,對于已建系統的數據元提取,一般适用這種“自下而上”提取法。在這種情況下,數據元直接來自各個信息系統。數據元創建者依據數據元标準化方法,對信息系統及相關資源的數據,在分析、梳理的基礎上,歸納整理出數據元;根據數據元的實際應用,闡明并寫出相關數據元在采集、存儲和交換過程中各個屬性以及屬性的約束要求;描述和定義各個屬性所需要的屬性描述符及其約束要求;根據給定的命名、定義、标識規則和表示規範,形成數據元。具體的步驟如下:

1、理解數據元,自下而上提取法的第1步就是獲取對數據元的理解:

(1)與該數據元有關的有哪些數據?

(2)是否有數據值得定義或描述?

(3)有沒有允許值或者實例?

(4)數據值是通過算術公式計算還是統計得出的?

2、内容研究,在研究數據元的基本屬性之前,應對下列問題做出研究:

(1)該數據元是否在國際、國内或者其他組織标準中進行了定義?

(2)該數據元是否已經存在于注冊系統中,有沒有重新應用的潛力?

(3)根據應用場景或上下文,确定數據元的定義。

(4)根據應用場景或上下文,确定數據元的允許值和值域。

(5)根據應用場景或上下文,确定數據元的表示詞類。

(6)根據應用場景或上下文,确定數據元的名稱和标識符。

(7)根據應用場景或上下文,确定數據元的其他屬性。

識别方法

為優化數據類型識别技術,進一步完善數據類型識别的方法,改善當前數據類型識别難以識别出複合文件的問題。通過對8種常見的數據類型進行實驗,初步選定樸素貝葉斯等幾種分類算法,并提出基于支持向量機(Support Vector Machine,SVM)的多方面參數選定方法,然後依據新的數據類型識别方法與傳統文件類型分别進行對比實驗,同時确定數據類型識别的函數分析方法。通過實驗可知,基于SVM支持向量機算法的數據類型識别方法建模時間長,但識别率高,被認定為以後要采用的新的基于機器學習的數據類型識别方法。 

相關詞條

相關搜索

其它詞條