數據庫索引

數據庫索引

計算機術語
數據庫索引是數據庫管理系統中一個排序的數據結構,以協助快速查詢、更新數據庫表中數據。數據庫索引就是為了提高表的搜索效率而對某些字段中的值建立的目錄。索引分為聚簇索引和非聚簇索引兩種,聚簇索引 是按照數據存放的物理位置為順序的,而非聚簇索引就不一樣了;聚簇索引能提高多行檢索的速度,而非聚簇索引對于單行的檢索很快。根據數據庫的功能,可以在數據庫設計器中創建三種索引:唯一索引、主鍵索引和聚集索引。最好避免包含共享列的重疊索引。
    中文名:數據庫索引 外文名:index 别名: 分類:聚簇索引 非聚簇索引 詳述:提高系統的性能 目的:加快對表中記錄的查找或排序 優點:迅速

主要種類

數據庫索引好比是一本書前面的目錄,能

加快數據庫的查詢速度。索引分為聚簇索引和非聚簇索引兩種,聚簇索引 是按照數據存放的物理位置為順序的,而非聚簇索引就不一樣了;聚簇索引能提高多行檢索的速度,而非聚簇索引對于單行的檢索很快。

根據數據庫的功能,可以在數據庫設計器中創建三種索引:唯一索引、主鍵索引和聚集索引。有關數據庫所支持的索引功能的詳細信息,請參見數據庫文檔。

提示:盡管唯一索引有助于定位信息,但為獲得最佳性能結果,建議改用主鍵或唯一約束。

唯一索引 唯一索引是不允許其中任何兩行具有相同索引值的索引。

當現有數據中存在重複的鍵值時,大多數數據庫不允許将新創建的唯一索引與表一起保存。數據庫還可能防止添加将在表中創建重複鍵值的新數據。例如,如果在employee表中職員的姓(lname)上創建了唯一索引,則任何兩個員工都不能同姓。

主鍵索引

數據庫表經常有一列或多列組合,其值唯一标識表中的每一行。該列稱為表的主鍵。

在數據庫關系圖中為表定義主鍵将自動創建主鍵索引,主鍵索引是唯一索引的特定類型。該索引要求主鍵中的每個值都唯一。當在查詢中使用主鍵索引時,它還允許對數據的快速訪問。

聚集索引

在聚集索引中,表中行的物理順序與鍵值的邏輯(索引)順序相同。一個表隻能包含一個聚集索引。

如果某索引不是聚集索引,則表中行的物理順序與鍵值的邏輯順序不匹配。與非聚集索引相比,聚集索引通常提供更快的數據訪問速度。

索引列

可以基于數據庫表中的單列或多列創建索引。多列索引可以區分其中一列可能有相同值的行。

如果經常同時搜索兩列或多列或按兩列或多列排序時,索引也很有幫助。例如,如果經常在同一查詢中為姓和名兩列設置判據,那麼在這兩列上創建多列索引将很有意義。

确定索引的有效性:

檢查查詢的WHERE和JOIN子句。在任一子句中包括的每一列都是索引可以選擇的對象。

對新索引進行試驗以檢查它對運行查詢性能的影響。

考慮已在表上創建的索引數量。最好避免在單個表上有很多索引。

檢查已在表上創建的索引的定義。最好避免包含共享列的重疊索引。

檢查某列中唯一數據值的數量,并将該數量與表中的行數進行比較。比較的結果就是該列的可選擇性,這有助于确定該列是否适合建立索引,如果适合,确定索引的類型。

操作案例

最普通的情況,是為出現在where子句的字段建一個索引。為方便講述,先建立一個如下的表。

CREATE TABLE mytable(

idserial primary key,

category_id int not null default0,

user_id int not null default0,

adddate int not null default0

);

如果在查詢時常用類似以下的語句:

SELECT * FROM mytable WHERE category_id=1;

最直接的應對之道,是為category_id建立一個簡單的索引:

CREATE INDEX mytable_categoryid ON mytable (category_id);

OK.如果有不止一個選擇條件呢?例如:

SELECT * FROM mytable WHERE category_id=1 AND user_id=2;

第一反應可能是,再給user_id建立一個索引。不好,這不是一個最佳的方法。可以建立多重的索引。

CREATE INDEX mytable_categoryid_userid ON mytable(category_id,user_id);

注意到在命名時的習慣了嗎?使用"表名_字段1名_字段2名"的方式。很快就會知道為什麼這樣做了。

現在已經為适當的字段建立了索引,不過,還是有點不放心吧,可能會問,數據庫會真正用到這些索引嗎?測試一下就OK,對于大多數的數據庫來說,這是很容易的,隻要使用expLAIN命令:

EXPLAIN

SELECT * FROM mytable

WHERE category_id=1 AND user_id=2;

This is what Postgres 7.1 returns (exactlyasI expected)

NOTICE:QUERY PLAN:

Index Scan using mytable_categoryid_userid on

mytable(cost=0.00..2.02 rows=1 width=16)

EXPLAIN

以上是postgres的數據,可以看到該數據庫在查詢的時候使用了一個索引(一個好開始),而且它使用的是創建的第二個索引。看到上面命名的好處了吧,馬上知道它使用适當的索引了。

接着,來個稍微複雜一點的,如果有個ORDERBY 子句呢?不管你信不信,大多數的數據庫在使用orderby的時候,都将會從索引中受益。

SELECT * FROM mytable

WHERE category_id=1 AND user_id=2

ORDER BY adddate DESC;

很簡單,就像為where子句中的字段建立一個索引一樣,也為ORDER BY的字句中的字段建立一個索引:

CREATE INDEX mytable_categoryid_userid_adddate ON mytable (category_id,user_id,adddate);

注意:"mytable_categoryid_userid_adddate"将會被截短為"mytable_categoryid_userid_addda"

CREATE

EXPLAIN SELECT * FROM mytable

WHERE category_id=1 AND user_id=2

ORDER BY adddate DESC;

NOTICE:QUERY PLAN:

Sort(cost=2.03..2.03 rows=1 width=16)

->Index Scanusing mytable_categoryid_userid_addda

on mytable(cost=0.00..2.02 rows=1 width=16)

EXPLAIN

看看EXPLAIN的輸出,數據庫多做了一個沒有要求的排序,這下知道性能如何受損了吧,看來對于數據庫的自身運作是有點過于樂觀了,那麼,給數據庫多一點提示吧。

為了跳過排序這一步,并不需要其它另外的索引,隻要将查詢語句稍微改一下。這裡用的是postgres,将給該數據庫一個額外的提示--在ORDER BY語句中,加入where語句中的字段。這隻是一個技術上的處理,并不是必須的,因為實際上在另外兩個字段上,并不會有任何的排序操作,不過如果加入,postgres将會知道哪些是它應該做的。

EXPLAIN SELECT * FROM mytable

WHERE category_id=1 AND user_id=2

ORDER BY category_id DESC,user_id DESC,adddate DESC;

NOTICE:QUERY PLAN:

Index Scan Backward using

mytable_categoryid_userid_addda on mytable(cost=0.00..2.02 rows=1 width=16)

EXPLAIN

現在使用料想的索引了,而且它還挺聰明,知道可以從索引後面開始讀,從而避免了任何的排序。

以上說得細了一點,不過如果數據庫非常巨大,并且每日的頁面請求達上百萬算,想會獲益良多的。不過,如果要做更為複雜的查詢呢,例如将多張表結合起來查詢,特别是where限制字句中的字段是來自不止一個表格時,應該怎樣處理呢?通常都盡量避免這種做法,因為這樣數據庫要将各個表中的東西都結合起來,然後再排除那些不合适的行,搞不好開銷會很大。

如果不能避免,應該查看每張要結合起來的表,并且使用以上的策略來建立索引,然後再用EXPLAIN命令驗證一下是否使用了料想中的索引。如果是的話,就OK。不是的話,可能要建立臨時的表來将他們結合在一起,并且使用适當的索引。

要注意的是,建立太多的索引将會影響更新和插入的速度,因為它需要同樣更新每個索引文件。對于一個經常需要更新和插入的表格,就沒有必要為一個很少使用的where字句單獨建立索引了,對于比較小的表,排序的開銷不會很大,也沒有必要建立另外的索引。

以上介紹的隻是一些十分基本的東西,其實裡面的學問也不少,單憑EXPLAIN是不能判定該方法是否就是最優化的,每個數據庫都有自己的一些優化器,雖然可能還不太完善,但是它們都會在查詢時對比過哪種方式較快,在某些情況下,建立索引的話也未必會快,例如索引放在一個不連續的存儲空間時,這會增加讀磁盤的負擔,因此,哪個是最優,應該通過實際的使用環境來檢驗。

在剛開始的時候,如果表不大,沒有必要作索引,意見是在需要的時候才作索引,也可用一些命令來優化表,例如MySQL可用"OPTIMIZETABLE"。MySQL索引的建立對于MySQL的高效運行是很重要的,索引可以大大提高MySQL的檢索速度。

擴展資料

索引是為了加速對表中數據行的檢索而創建的一種分散的存儲結構。索引是針對表而建立的,它是由數據頁面以外的索引頁面組成的,每個索引頁面中的行都會含有邏輯指針,以便加速檢索物理數據。 [2]nn  在數據庫關系圖中,可以在選定表的“索引/鍵”屬性頁中創建、編輯或删除每個索引類型。當保存索引所附加到的表,或保存該表所在的關系圖時,索引将保存在數據庫中。nn  在關系數據庫中,索引是一種單獨的、物理的對數據庫表中一列或多列的值進行排序的一種存儲結構,它是某個表中一列或若幹列值的集合和相應的指向表中物理标識這些值的數據頁的邏輯指針清單。索引的作用相當于圖書的目錄,可以根據目錄中的頁碼快速找到所需的内容。nn  索引提供指向存儲在表的指定列中的數據值的指針,然後根據您指定的排序順序對這些指針排序。數據庫使用索引以找到特定值,然後順指針找到包含該值的行。這樣可以使對應于表的SQL語句執行得更快,可快速訪問數據庫表中的特定信息。nn  當表中有大量記錄時,若要對表進行查詢,第一種搜索信息方式是全表搜索,是将所有記錄一一取出,和查詢條件進行一一對比,然後返回滿足條件的記錄,這樣做會消耗大量數據庫系統時間,并造成大量磁盤I/O操作;第二種就是在表中建立索引,然後在索引中找到符合查詢條件的索引值,最後通過保存在索引中的ROWID(相當于頁碼)快速找到表中對應的記錄。nn

相關詞條

相關搜索

其它詞條