數據庫:電子化的文件櫃-中文百科頻道

簡介

定義

當今世界是一個充滿着數據的互聯網世界，充斥着大量的數據。即這個互聯網世界就是數據世界。數據的來源有很多，比如出行記錄、消費記錄、浏覽的網頁、發送的消息等等。除了文本類型的數據，圖像、音樂、聲音都是數據。

數據庫是一個按數據結構來存儲和管理數據的計算機軟件系統。數據庫的概念實際包括兩層意思：

（1）數據庫是一個實體，它是能夠合理保管數據的“倉庫”，用戶在該“倉庫”中存放要管理的事務數據，“數據”和“庫”兩個概念結合成為數據庫。

（2）數據庫是數據管理的新方法和技術，它能更合适的組織數據、更方便的維護數據、更嚴密的控制數據和更有效的利用數據。

發展現狀

在數據庫的發展曆史上，數據庫先後經曆了層次數據庫、網狀數據庫和關系數據庫等各個階段的發展，數據庫技術在各個方面的快速的發展。特别是關系型數據庫已經成為目前數據庫産品中最重要的一員，80年代以來，幾乎所有的數據庫廠商新出的數據庫産品都支持關系型數據庫，即使一些非關系數據庫産品也幾乎都有支持關系數據庫的接口。這主要是傳統的關系型數據庫可以比較好的解決管理和存儲關系型數據的問題。随着雲計算的發展和大數據時代的到來，關系型數據庫越來越無法滿足需要，這主要是由于越來越多的半關系型和非關系型數據需要用數據庫進行存儲管理，以此同時，分布式技術等新技術的出現也對數據庫的技術提出了新的要求，于是越來越多的非關系型數據庫就開始出現，這類數據庫與傳統的關系型數據庫在設計和數據結構有了很大的不同，它們更強調數據庫數據的高并發讀寫和存儲大數據，這類數據庫一般被稱為NoSQL（Not only SQL）數據庫。而傳統的關系型數據庫在一些傳統領域依然保持了強大的生命力。

數據庫管理系統

數據庫管理系統是為管理數據庫而設計的電腦軟件系統，一般具有存儲、截取、安全保障、備份等基礎功能。數據庫管理系統可以依據它所支持的數據庫模型來作分類，例如關系式、XML；或依據所支持的計算機類型來作分類，例如服務器群集、移動電話；或依據所用查詢語言來作分類，例如SQL、XQuery；或依據性能沖量重點來作分類，例如最大規模、最高運行速度；亦或其他的分類方式。近幾年雲數據庫技術飛速發展,越來越多的企事業單位、組織将數據庫轉移至雲端,因此對構建雲數據庫的需求也在不斷增加。不論使用哪種分類方式，一些DBMS能夠跨類别，例如，同時支持多種查詢語言。

數據庫管理系統是數據庫系統的核心組成部分，主要完成對數據庫的操作與管理功能，實現數據庫對象的創建、數據庫存儲數據的查詢、添加、修改與删除操作和數據庫的用戶管理、權限管理等。它的安全直接關系到整個數據庫系統的安全，其防護手段主要有：

（1）使用正版數據庫管理系統并及時安裝相關補丁。

（2）做好用戶賬戶管理，禁用默認超級管理員賬戶或者為超級管理員賬戶設置複雜密碼；為應用程序分别分配專用賬戶進行訪問；設置用戶登錄時間及登錄失敗次數限制，防止暴力破解用戶密碼。

（3）分配用戶訪問權限時，堅持最小權限分配原則，并限制用戶隻能訪問特定數據庫，不能同時訪問其他數據庫。

（4）修改數據庫默認訪問端口，使用防火牆屏蔽掉對外開放的其他端口，禁止一切外部的端口探測行為。

（5）對數據庫内存儲的重要數據、敏感數據進行加密存儲，防止數據庫備份或數據文件被盜而造成數據洩露。

（6）設置好數據庫的備份策略，保證數據庫被破壞後能迅速恢複。

（7）對數據庫内的系統存儲過程進行合理管理，禁用掉不必要的存儲過程，防止利用存儲過程進行數據庫探測與攻擊。

（8）啟用數據庫審核功能，對數據庫進行全面的事件跟蹤和日志記錄。

類型

關系數據庫

關系型數據庫，存儲的格式可以直觀地反映實體間的關系。關系型數據庫和常見的表格比較相似，關系型數據庫中表與表之間是有很多複雜的關聯關系的。常見的關系型數據庫有Mysql，SqlServer等。在輕量或者小型的應用中，使用不同的關系型數據庫對系統的性能影響不大，但是在構建大型應用時，則需要根據應用的業務需求和性能需求，選擇合适的關系型數據庫。

标準SQL語句

雖然關系型數據庫有很多，但是大多數都遵循SQL（結構化查詢語言，Structured Query Language）标準。常見的操作有查詢，新增，更新，删除，求和，排序等。

查詢語句：SELECT param FROM table WHERE condition該語句可以理解為從table中查詢出滿足condition條件的字段param。

新增語句：INSERT INTO table （param1，param2，param3） VALUES （value1，value2，value3）該語句可以理解為向table中的param1，param2，param3字段中分别插入value1，value2，value3。

更新語句：UPDATE table SET param=new_value WHERE condition該語句可以理解為将滿足condition條件的字段param更新為new_value值。

删除語句：DELETE FROM table WHERE condition該語句可以理解為将滿足condition條件的數據全部删除。

去重查詢：SELECT DISTINCT param FROM table WHERE condition該語句可以理解為從表table中查詢出滿足條件condition的字段param，但是param中重複的值隻能出現一次。

排序查詢：SELECT param FROM table WHERE condition ORDER BY param1該語句可以理解為從表table中查詢出滿足condition條件的param，并且要按照param1升序的順序進行排序。

總體來說，數據庫的SELECT，INSERT，UPDATE，DELETE對應了我們常用的增删改查四種操作。

關系型數據庫對于結構化數據的處理更合适，如學生成績、地址等，這樣的數據一般情況下需要使用結構化的查詢，例如join，這樣的情況下，關系型數據庫就會比NoSQL數據庫性能更優，而且精确度更高。由于結構化數據的規模不算太大，數據規模的增長通常也是可預期的，所以針對結構化數據使用關系型數據庫更好。關系型數據庫十分注意數據操作的事務性、一緻性，如果對這方面的要求關系型數據庫無疑可以很好的滿足。

非關系型數據庫（NoSQL）

随着近些年技術方向的不斷拓展，大量的NoSql數據庫如MongoDB、Redis、Memcache出于簡化數據庫結構、避免冗餘、影響性能的表連接、摒棄複雜分布式的目的被設計。

指的是分布式的、非關系型的、不保證遵循ACID原則的數據存儲系統。NoSQL數據庫技術與CAP理論、一緻性哈希算法有密切關系。所謂CAP理論，簡單來說就是一個分布式系統不可能滿足可用性、一緻性與分區容錯性這三個要求，一次性滿足兩種要求是該系統的上限。而一緻性哈希算法則指的是NoSQL數據庫在應用過程中，為滿足工作需求而在通常情況下産生的一種數據算法，該算法能有效解決工作方面的諸多問題但也存在弊端，即工作完成質量會随着節點的變化而産生波動，當節點過多時，相關工作結果就無法那麼準确。這一問題使整個系統的工作效率受到影響，導緻整個數據庫系統的數據亂碼與出錯率大大提高，甚至會出現數據節點的内容遷移，産生錯誤的代碼信息。但盡管如此，NoSQL數據庫技術還是具有非常明顯的應用優勢，如數據庫結構相對簡單，在大數據量下的讀寫性能好；能滿足随時存儲自定義數據格式需求，非常适用于大數據處理工作。

NoSQL數據庫适合追求速度和可擴展性、業務多變的應用場景。對于非結構化數據的處理更合适，如文章、評論，這些數據如全文搜索、機器學習通常隻用于模糊處理，并不需要像結構化數據一樣，進行精确查詢，而且這類數據的數據規模往往是海量的，數據規模的增長往往也是不可能預期的，而NoSQL數據庫的擴展能力幾乎也是無限的，所以NoSQL數據庫可以很好的滿足這一類數據的存儲。NoSQL數據庫利用key-value可以大量的獲取大量的非結構化數據，并且數據的獲取效率很高，但用它查詢結構化數據效果就比較差。

目前NoSQL數據庫仍然沒有一個統一的标準，它現在有四種大的分類：

（1）鍵值對存儲（key-value）：代表軟件Redis，它的優點能夠進行數據的快速查詢，而缺點是需要存儲數據之間的關系。

（2）列存儲：代表軟件Hbase，它的優點是對數據能快速查詢，數據存儲的擴展性強。而缺點是數據庫的功能有局限性。

（3）文檔數據庫存儲：代表軟件MongoDB，它的優點是對數據結構要求不特别的嚴格。而缺點是查詢性的性能不好，同時缺少一種統一查詢語言。

（4）圖形數據庫存儲：代表軟件InfoGrid，它的優點可以方便的利用圖結構相關算法進行計算。而缺點是要想得到結果必須進行整個圖的計算，而且遇到不适合的數據模型時，圖形數據庫很難使用。

NoSQL與關系型數據庫的區别

存儲方式

傳統的關系型數據庫采用表格的儲存方式，數據以行和列的方式進行存儲，要讀取和查詢都十分方便。而非關系型數據不适合這樣的表格存儲方式，通常以數據集的方式，大量的數據集中存儲在一起，類似于鍵值對、圖結構或者文檔。

存儲結構

關系型數據庫按照結構化的方法存儲數據，每個數據表都必須對各個字段定義好（也就是先定義好表的結構），再根據表的結構存入數據，這樣做的好處就是由于數據的形式和内容在存入數據之前就已經定義好了，所以整個數據表的可靠性和穩定性都比較高，但帶來的問題就是一旦存入數據後，如果需要修改數據表的結構就會十分困難。而NoSQL數據庫由于面對的是大量非結構化的數據的存儲，它采用的是動态結構，對于數據類型和結構的改變非常的适應，可以根據數據存儲的需要靈活的改變數據庫的結構。

存儲規範

關系型數據庫為了避免重複、規範化數據以及充分利用好存儲空間，把數據按照最小關系表的形式進行存儲，這樣數據管理的就可以變得很清晰、一目了然，當然這主要是一張數據表的情況。如果是多張表情況就不一樣了，由于數據涉及到多張數據表，數據表之間存在着複雜的關系，随着數據表數量的增加，數據管理會越來越複雜。而NoSQL數據庫的數據存儲方式是用平面數據集的方式集中存放，雖然會存在數據被重複存儲，從而造成存儲空間被浪費的問題（從當前的計算機硬件的發展來看，這樣的存儲空間浪費的問題微不足道），但是由于基本上單個數據庫都是采用單獨存放的形式，很少采用分割存放的方式，所以這樣數據往往能存成一個整體，這對于數據的讀寫提供了極大的方便。

擴展方式

當前社會和科學飛速發展，要支持日益增長的數據庫存儲需求當然要求數據庫有良好的擴展性能，并且要求數據庫支持更多數據并發量，擴展方式是NoSQL數據庫與關系型數據庫差别最大的地方，由于關系型數據庫将數據存儲在數據表中，數據操作的瓶頸出現在多張數據表的操作中，而且數據表越多這個問題越嚴重，如果要緩解這個問題，隻能提高處理能力，也就是選擇速度更快性能更高的計算機，這樣的方法雖然可以一定的拓展空間，但這樣的拓展空間一定有非常有限的，也就是關系型數據庫隻具備縱向擴展能力。而NoSQL數據庫由于使用的是數據集的存儲方式，它的存儲方式一定是分布式的，它可以采用橫向的方式來開展數據庫，也就是可以添加更多數據庫服務器到資源池，然後由這些增加的服務器來負擔數據量增加的開銷。

查詢方式

關系型數據庫采用結構化查詢語言（即SQL）來對數據庫進行查詢，SQL早已獲得了各個數據庫廠商的支持，成為數據庫行業的标準，它能夠支持數據庫的CRUD（增加，查詢，更新，删除）操作，具有非常強大的功能，SQL可以采用類似索引的方法來加快查詢操作。NoSQL數據庫使用的是非結構化查詢語言（UnQL），它以數據集（像文檔）為單位來管理和操作數據，由于它沒有一個統一的标準，所以每個數據庫廠商提供産品标準是不一樣的，NoSQL中的文檔Id與關系型表中主鍵的概念類似，NoSQL數據庫采用的數據訪問模式相對SQL更簡單而精确。

規範化

在數據庫的設計開發過程中開發人員通常會面對同時需要對一個或者多個數據實體（包括數組、列表和嵌套數據）進行操作，這樣在關系型數據庫中，一個數據實體一般首先要分割成多個部分，然後再對分割的部分進行規範化，規範化以後再分别存入到多張關系型數據表中，這是一個複雜的過程。好消息是随着軟件技術的發展，相當多的軟件開發平台都提供一些簡單的解決方法，例如，可以利用ORM層（也就是對象關系映射）來将數據庫中對象模型映射到基于SQL的關系型數據庫中去以及進行不同類型系統的數據之間的轉換。對于NoSQL數據庫則沒有這方面的問題，它不需要規範化數據，它通常是在一個單獨的存儲單元中存入一個複雜的數據實體。

事務性

關系型數據庫強調ACID規則（原子性（Atomicity）、一緻性（Consistency）、隔離性（Isolation）、持久性（Durability）），可以滿足對事務性要求較高或者需要進行複雜數據查詢的數據操作，而且可以充分滿足數據庫操作的高性能和操作穩定性的要求。并且關系型數據庫十分強調數據的強一緻性，對于事務的操作有很好的支持。關系型數據庫可以控制事務原子性細粒度，并且一旦操作有誤或者有需要，可以馬上回滾事務。而NoSQL數據庫強調BASE原則（基本可用（Basically Available）、軟狀态（Soft-state）、最終一緻性（Eventual Consistency）），它減少了對數據的強一緻性支持，從而獲得了基本一緻性和柔性可靠性，并且利用以上的特性達到了高可靠性和高性能，最終達到了數據的最終一緻性。NoSQL數據庫雖然對于事務操作也可以使用，但由于它是一種基于節點的分布式數據庫，對于事務的操作不能很好的支持，也很難滿足其全部的需求，所以NoSQL數據庫的性能和優點更多的體現在大數據的處理和數據庫的擴展方面。

讀寫性能

關系型數據庫十分強調數據的一緻性，并為此降低讀寫性能付出了巨大的代價，雖然關系型數據庫存儲數據和處理數據的可靠性很不錯，但一旦面對海量數據的處理的時候效率就會變得很差，特别是遇到高并發讀寫的時候性能就會下降的非常厲害。而NoSQL數據庫相對關系型數據庫優勢最大的恰恰是應對大數據方面，也就是對于大量的每天都産生非結構化的數據能夠高性能的讀寫，這是因為NoSQL數據庫是按key-value類型進行存儲的，以數據集的方式存儲的，因此無論是擴展還是讀寫都非常容易，并且NoSQL數據庫不需要關系型數據庫繁瑣的解析，所以NoSQL數據庫大數據管理、檢索、讀寫、分析以及可視化方面具有關系型數據庫不可比拟的優勢。

授權方式

關系型數據庫常見的有Oracle，SQLServer，DB2，Mysql，除了Mysql大多數的關系型數據庫如果要使用都需要支付一筆價格高昂的費用，即使是免費的Mysql性能也受到了諸多的限制。而對于NoSQL數據庫，比較主流的有redis，HBase，MongoDb，memcache等産品，通常都采用開源的方式，不需要像關系型數據庫那樣，需要一筆高昂的花費。

分布式數據庫

所謂的分布式數據庫技術，就是結合了數據庫技術與分布式技術的一種結合。具體指的是把那些在地理意義上分散開的各個數據庫節點，但在計算機系統邏輯上又是屬于同一個系統的數據結合起來的一種數據庫技術。既有着數據庫間的協調性也有着數據的分布性。這個系統并不注重系統的集中控制，而是注重每個數據庫節點的自治性，此外為了讓程序員能夠在編寫程序時可以減輕工作量以及系統出錯的可能性，一般都是完全不考慮數據的分布情況，這樣的結果就使得系統數據的分布情況一直保持着透明性。

數據獨立性概念在分布式數據庫管理系統中同樣是十分重要的一環，但是不僅如此，分布式數據管理系統還增加了一個叫分布式透明性的新概念。這個新概念的作用是讓數據進行轉移時使程序正确性不受影響，就像數據并沒有在編寫程序時被分布一樣。

在分布式數據庫裡，數據冗雜是一種被需要的特性，這點和一般的集中式數據庫系統不一樣。第一點是為了提高局部的應用性而要在那些被需要的數據庫節點複制數據。第二點是因為如果某個數據庫節點出現系統錯誤，在修複好之前，可以通過操作其他的數據庫節點裡複制好的數據來讓系統能夠繼續使用，提高系統的有效性。