Mysql中的 BTree 索引和 Hash 索引

NO IMAGE

       Hash 索引結構的特殊性,其檢索效率非常高,索引的檢索可以一次定位,不像B-Tree 索引需要從根節點到枝節點,最後才能訪問到頁節點這樣多次的IO訪問,所以 Hash 索引的查詢效率要遠高於 B-Tree 索引。

       可能很多人又有疑問了,既然 Hash 索引的效率要比 B-Tree 高很多,為什麼大家不都用 Hash 索引而還要使用 B-Tree 索引呢?任何事物都是有兩面性的,Hash 索引也一樣,雖然 Hash 索引效率高,但是 Hash 索引本身由於其特殊性也帶來了很多限制和弊端,主要有以下這些。

(1)Hash 索引僅僅能滿足”=”,”IN”和”<=>”查詢,不能使用範圍查詢。
       由於 Hash 索引比較的是進行 Hash 運算之後的 Hash 值,所以它只能用於等值的過濾,不能用於基於範圍的過濾,因為經過相應的 Hash 演算法處理之後的 Hash 值的大小關係,並不能保證和Hash運算前完全一樣。

(2)Hash 索引無法被用來避免資料的排序操作。
       由於 Hash 索引中存放的是經過 Hash 計算之後的 Hash 值,而且Hash值的大小關係並不一定和 Hash 運算前的鍵值完全一樣,所以資料庫無法利用索引的資料來避免任何排序運算;

(3)Hash 索引不能利用部分索引鍵查詢。
       對於組合索引,Hash 索引在計算 Hash 值的時候是組合索引鍵合併後再一起計算 Hash 值,而不是單獨計算 Hash 值,所以通過組合索引的前面一個或幾個索引鍵進行查詢的時候,Hash 索引也無法被利用。

(4)Hash 索引在任何時候都不能避免表掃描。
       前面已經知道,Hash 索引是將索引鍵通過 Hash 運算之後,將 Hash運算結果的 Hash 值和所對應的行指標資訊存放於一個 Hash 表中,由於不同索引鍵存在相同 Hash 值,所以即使取滿足某個 Hash 鍵值的資料的記錄條數,也無法從 Hash 索引中直接完成查詢,還是要通過訪問表中的實際資料進行相應的比較,並得到相應的結果。

(5)Hash 索引遇到大量Hash值相等的情況後效能並不一定就會比B-Tree索引高。
       對於選擇性比較低的索引鍵,如果建立 Hash 索引,那麼將會存在大量記錄指標資訊存於同一個 Hash 值相關聯。這樣要定位某一條記錄時就會非常麻煩,會浪費多次表資料的訪問,而造成整體效能低下

 

2. B-Tree索引 
      B-Tree 索引是 MySQL 資料庫中使用最為頻繁的索引型別,除了 Archive 儲存引擎之外的其他所有的儲存引擎都支援 B-Tree 索引。不僅僅在 MySQL 中是如此,實際上在其他的很多資料庫管理系統中B-Tree 索引也同樣是作為最主要的索引型別,這主要是因為 B-Tree 索引的儲存結構在資料庫的資料檢 索中有非常優異的表現。 
      一般來說, MySQL 中的 B-Tree 索引的物理檔案大多都是以 Balance Tree平衡二叉樹 的結構來儲存的,也就是所有實際需要的資料都存放於 Tree 的 Leaf Node ,而且到任何一個 Leaf Node 的最短路徑的長度都是完全相同的,所以我們大家都稱之為 B-Tree 索引當然,可能各種資料庫(或 MySQL 的各種儲存引擎)在存放自己的 B-Tree 索引的時候會對儲存結構稍作改造。如 Innodb 儲存引擎的 B-Tree 索引實際使用的儲存結構實際上是 B Tree ,也就是在 B-Tree 資料結構的基礎上做了很小的改造,在每一個 
       Leaf Node 上面出了存放索引鍵的相關資訊之外,還儲存了指向與該 Leaf Node 相鄰的後一個 LeafNode 的指標資訊,這主要是為了加快檢索多個相鄰 Leaf Node 的效率考慮。 
      在 Innodb 儲存引擎中,存在兩種不同形式的索引,一種是 Cluster 形式的主鍵索引( Primary Key ),另外一種則是和其他儲存引擎(如 MyISAM 儲存引擎)存放形式基本相同的普通 B-Tree 索引,這種索引在 Innodb 儲存引擎中被稱為 Secondary Index 。下面我們通過圖示來針對這兩種索引的存放 
形式做一個比較。 

    MySQL的btree索引和hash索引的區別 

      圖示中左邊為 Clustered 形式存放的 Primary Key ,右側則為普通的 B-Tree 索引。兩種 Root Node 和 Branch Nodes 方面都還是完全一樣的。而 Leaf Nodes 就出現差異了。在 Prim中, Leaf Nodes 存放的是表的實際資料,不僅僅包括主鍵欄位的資料,還包括其他欄位的資料據以主鍵值有序的排列。而 Secondary Index 則和其他普通的 B-Tree 索引沒有太大的差異,Leaf Nodes 出了存放索引鍵 的相關資訊外,還存放了 Innodb 的主鍵值。 

      所以,在 Innodb 中如果通過主鍵來訪問資料效率是非常高的,而如果是通過 Secondary Index 來訪問資料的話, Innodb 首先通過 Secondary Index 的相關資訊,通過相應的索引鍵檢索到 Leaf Node之後,需要再通過 Leaf Node 中存放的主鍵值再通過主鍵索引來獲取相應的資料行。MyISAM 儲存引擎的主鍵索引和非主鍵索引差別很小,只不過是主鍵索引的索引鍵是一個唯一且非空 的鍵而已。而且 MyISAM 儲存引擎的索引和 Innodb 的 Secondary Index 的儲存結構也基本相同,主要的區別只是 MyISAM 儲存引擎在 Leaf Nodes 上面出了存放索引鍵資訊之外,再存放能直接定位到 MyISAM 資料檔案中相應的資料行的資訊(如 Row Number ),但並不會存放主鍵的鍵值資訊。

       可以使用btree索引的查詢型別,btree索引使用用於全鍵值、鍵值範圍、或者鍵字首查詢,其中鍵字首查詢只適合用於根據最左字首的查詢。前面示例中建立的多列索引對如下型別的查詢有效:

A:全值匹配——全值匹配指的是和索引中的所有列進行匹配,即可用於查詢姓名和出生日期

B:匹配最左字首——如:只查詢姓,即只使用索引的第一列

C:匹配列字首——也可以只匹配某一列值的開頭部分,如:匹配以J開頭的姓的人,這裡也只是使用了索引的第一列,且是第一列的一部分

D:匹配範圍值——如查詢姓在allen和barrymore之間的人,這裡也只使用了索引的第一列

E:精確匹配某一列並範圍匹配另外一列

如查詢所有姓為allen,並且名字字母是K開頭的,即,第一列last_name精確匹配,第二列first_name範圍匹配

F:只訪問索引的查詢——btree通常可以支援只訪問索引的查詢,即查詢只需要訪問索引,而無需訪問資料行,即,這個就是覆蓋索引的概念。需要訪問的資料直接從索引中取得。

       因為索引樹中的節點是有序的,所以除了按值查詢之外,索引還可以用於查詢中的order by操作,一般來說,如果btree可以按照某種方式查詢的值,那麼也可以按照這種方式用於排序,所以,如果order by子句滿足前面列出的幾種查詢型別,則這個索引也可以滿足對應的排序需求。

 

下面是關於btree索引的限制:

A:如果不是按照索引的最左列開始查詢的,則無法使用索引(注意,這裡不是指的where條件的順序,即where條件中,不管條件順序,只要where中出現的列在多列索引中能夠從最左開始連貫起來就能使用到多列索引)

B:不能跳過索引中的列,如:查詢條件為姓和出生日期,跳過了名字列,這樣,多列索引就只能使用到姓這一列

C:如果查詢中有某個列的範圍查詢,則其右邊所有列都無法使用索引優化查詢,如:where last_name=xxx and first_name like ‘xxx%’ and dob=’xxx’;這樣,first_name列可以使用索引,這列之後的dob列無法使用索引。