NO IMAGE

Java 虛擬機器的指令由一個位元組長度的、代表著某種特定操作含義的操作碼(Opcode)以及跟隨其後的零至多個代表此操作所需引數的運算元(Operands)所構成。虛擬機器中許多指令並不包含運算元,只有一個操作碼。
如果忽略異常處理,那 Java 虛擬機器的直譯器使用下面這個虛擬碼的迴圈即可有效地工作:

do{
 自動計算PC暫存器以及從PC暫存器的位置取出操作碼;
 if(存在運算元)取出運算元;
 執行操作碼所定義的操作
}while(處理下一次迴圈);

運算元的數量以及長度取決於操作碼,如果一個運算元的長度超過了一個位元組,那它將會以 Big-Endian 順序儲存——即高位在前的位元組序。舉個例子,如果要將一個 16 位長度的無符號整數使用兩個無符號位元組儲存起來(將它們命名為 byte1 和 byte2),那它們的值應該是這樣的:

(byte1<<8)|byte2

位元組碼指令流應當都是單位元組對齊的,只有“tableswitch”和“lookupswitch”兩條指令例外,由於它們的運算元比較特殊,都是以 4 位元組為界劃分開的,所以這兩條指令那個也需要預留出相應的空位來實現對齊。

限制 Java 虛擬機器操作碼的長度為一個位元組,並且放棄了編譯後程式碼的引數長度對齊,是為了儘可能地獲得短小精幹的編譯程式碼,即使這可能會讓 Java 虛擬機器的具體實現付出一定的效能成本為代價。由於每個操作碼只能有一個位元組長度,所以直接限制了整個指令集的數量 (位元組碼無法超過 256 條的限制就來源於此) ,又由於沒有假設資料是對齊好的,這就意味著虛擬機器處理那些超過一個位元組的資料的時候,不得不在執行時從位元組中重建出具體資料的結構,這在某種程度上會損失一些效能。

資料型別與 Java 虛擬機器

在 Java 虛擬機器的指令集中,大多數的指令都包含了其操作所對應的資料型別資訊。舉個例子,iload 指令用於從區域性變數表中載入 int 型的資料到運算元棧中,而 fload 指令載入的則是 float 型別的資料。這兩條指令的操作可能會是由同一段程式碼來實現的,但它們必須擁有各自獨立的操作符。

對於大部分為與資料型別相關的位元組碼指令,他們的操作碼助記符中都有特殊的字元來表明專門為哪種資料型別服務:i 代表對 int 型別的資料操作,l 代表 long,s 代表 short,b 代表 byte,c 代表 char,f 代表 float,d 代表 double,a 代表 reference。也有一些指令的助記符中沒有明確的指明操作型別的字母,例如 arraylength 指令,它沒有代表資料型別的特殊字元,但運算元永遠只能是一個陣列型別的物件。還有另外一些指令,例如無條件跳轉指令
goto 則是與資料型別無關的。

由於 Java 虛擬機器的操作碼長度只有一個位元組,所以包含了資料型別的操作碼對指令集的設計帶來了很大的壓力:如果每一種與資料型別相關的指令都支援 Java 虛擬機器所有執行時資料型別的話,那恐怕就會超出一個位元組所能表示的數量範圍了。因此,Java 虛擬機器的指令集對於特定的操作只提供了有限的型別相關指令去支援它,換句話說,指令集將會故意被設計成非完全獨立的(Not Orthogonal,即並非每種資料型別和每一種操作都有對應的指令)。有一些單獨的指令可以在必要的時候用來將一些不支援的型別轉換為可被支援的型別。

下表列舉了 Java 虛擬機器所支援的位元組碼指令集,通過使用資料型別列所代表的特殊字元替換 opcode 列的指令模板中的 T,就可以得到一個具體的位元組碼指令。如果在表中指令模板與資料型別兩列共同確定的格為空,則說明虛擬機器不支援對這種資料型別執行這項操作。例如 load 指令有操作 int 型別的 iload,但是沒有操作 byte 型別的同類指令。

請注意,從下表中看來,大部分的指令都沒有支援整數型別 byte、char 和 short,甚至沒有任何指令支援 boolean 型別。編譯器會在編譯期或執行期會將 byte 和 short 型別的資料帶符號擴充套件(Sign-Extend)為相應的 int 型別資料,將 boolean 和 char 型別資料零位擴充套件(Zero-Extend)為相應的 int 型別資料。與之類似的,在處理 boolean、byte、short 和 char 型別的陣列時,也會轉換為使用對應的
int 型別的位元組碼指令來處理。因此,大多數對於 boolean、byte、short 和 char 型別資料的操作,實際上都是使用相應的對 int 型別作為運算型別(Computational Type)。

Java 虛擬機器指令集所支援的資料型別:

OPCODE BYTE SHORT INT LONG FLOAT DOUBLE CHAR REFERENCE
Tipush bipush sipush
Tconst  iconst  lconst  fconst  dconst  aconst
Tload  iload  lload  fload  dload  aload
Tstore  istore  lstore  fstore  dstore  astore
Tinc  iinc
Taload  baload  saload  iaload  laload  faload  daload  caload  aaload
Tastore  bastore  sastore  iastore  lastore  fastore  dastore  castore  aastore
Tadd  iadd  ladd  fadd  dadd
Tsub  isub  lsub  fsub  dsub
Tmul  imul  lmul  fmul  dmul
Tdiv  idiv  ldiv  fdiv  ddiv
Trem  irem  lrem  frem  drem
Tneg  ineg  lneg  fneg  dneg
Tshl  ishl  lshl
Tshr  ishr  lshr
Tushr  iushr  lushr
Tand  iand  land
Tor  ior  lor
Txor  ixor  lxor
 i2T  i2b  i2s  i2l  i2f  i2d
 l2T  l2i  l2f  l2d
 f2T  f2i  f2l  f2d
 d2T  d2i  d2l  d2f
 Tcmp  lcmp
 Tcmpl  fcmpl  dcmpl
 Tcmpg  fcmpg  dcmpg
 if_TcmpOP   if_icmpOP   if_acmpOP
Treturn ireturn  lreturn  freturn  dreturn areturn

在 Java 虛擬機器中,實際型別與運算型別之間的對映關係,如下表所示:

實際型別 運算型別 分類
 boolean  int 分類一
 byte  int 分類一
 char  int 分類一
 short  int 分類一
 int  int 分類一
 float  float 分類一
 reference  reference 分類一
 returnAddress  returnAddress 分類一
 long  long 分類二
 double  double 分類二

有部分對操作棧進行操作的 Java 虛擬機器指令(例如 pop 和 swap 指令)是與具體型別無關的,不過這些指令也必須受到運算型別分類的限制,這些分類也在表中列出了。

載入和儲存指令

載入和儲存指令用於將資料從棧幀的區域性變數表和運算元棧之間來回傳輸:

  • 將一個區域性變數載入到操作棧的指令包括有:iload、iload_<n>、lload、lload_<n>、fload、fload_<n>、dload、dload_<n>、aload、aload_<n>
  • 將一個數值從運算元棧儲存到區域性變數表的指令包括有:istore、istore_<n>、lstore、lstore_<n>、fstore、fstore_<n>、dstore、dstore_<n>、astore、astore_<n>
  • 將一個常量載入到運算元棧的指令包括有:bipush、sipush、ldc、ldc_w、ldc2_w、aconst_null、iconst_m1、iconst_<i>、lconst_<l>、fconst_<f>、dconst_<d>
  • 擴充區域性變數表的訪問索引的指令:wide

訪問物件的欄位或陣列元素的指令也同樣會與運算元棧傳輸資料。

上面所列舉的指令助記符中,有一部分是以尖括號結尾的(例如 iload_<n>),這些指令助記符實際上是代表了一組指令(例如 iload_<n>,它代表了 iload_0、iload_1、iload_2 和 iload_3 這幾條指令)。這幾組指令都是某個帶有一個運算元的通用指令(例如 iload)的特殊形式,對於這若干組特殊指令來說,它們表面上沒有運算元,不需要進行取運算元的動作,但運算元都是在指令中隱含的。除此之外,他們的語義與原生的通用指令完全一致(例如
iload_0 的語義與運算元為 0 時的 iload 指令語義完全一致)。在尖括號之間的字母制定了指令隱含運算元的資料型別,<i>代表是 int 形資料,<l>代表 long 型,<f>代表 float 型,<d>代表 double型。在操作 byte、char 和 short 型別資料時,也用 int 型別表示。

這種指令表示方法,在整個《Java 虛擬機器規範》之中都是通用的。

運算指令

算術指令用於對兩個運算元棧上的值進行某種特定運算,並把結果重新存入到操作棧頂。大體上運算指令可以分為兩種:對整型資料進行運算的指令與對浮點型資料進行運算的指令,無論是那種算術指令,都是使用 Java 虛擬機器的數字型別的。資料沒有直接支援 byte、short、char 和 boolean 型別(§2.11.1)的算術指令,對於這些資料的運算,都是使用操作 int 型別的指令。

整數與浮點數的算術指令在溢位和被零除的時候也有各自不同的行為,所有的算術指令包括:

  • 加法指令:iadd、ladd、fadd、dadd
  • 減法指令:isub、lsub、fsub、dsub
  • 乘法指令:imul、lmul、fmul、dmul
  • 除法指令:idiv、ldiv、fdiv、ddiv
  • 求餘指令:irem、lrem、frem、drem
  • 取反指令:ineg、lneg、fneg、dneg
  • 位移指令:ishl、ishr、iushr、lshl、lshr、lushr
  • 按位或指令:ior、lor
  • 按位與指令:iand、land
  • 按位異或指令:ixor、lxor
  • 區域性變數自增指令:iinc
  • 比較指令:dcmpg、dcmpl、fcmpg、fcmpl、lcmp

Java 虛擬機器的指令集直接支援了在《Java 語言規範》中描述的各種對整數及浮點數操作的語義。

Java 虛擬機器沒有明確規定整型資料溢位的情況,但是規定了在處理整型資料時,只有除法指令(idiv 和 ldiv)以及求餘指令(irem 和 lrem)出現除數為零時會導致虛擬機器丟擲異常,如果發生了這種情況,虛擬機器將會丟擲 ArithmeitcException 異常。

Java 虛擬機器在處理浮點數時,必須遵循 IEEE 754 規範中所規定行為限制。也就是說 Java虛擬機器要求完全支援 IEEE 754 中定義的非正規浮點數值(Denormalized Floating-Point Numbers,§2.3.2)和逐級下溢(Gradual Underflow)。這些特徵將會使得某些數值演算法處理起來變得更容易一些。

Java 虛擬機器要求在進行浮點數運算時,所有的運算結果都必須舍入到適當的進度,非精確的結果必須舍入為可被表示的最接近的精確值,如果有兩種可表示的形式與該值一樣接近,那將優先選擇最低有效位為零的。這種舍入模式也是 IEEE 754 規範中的預設舍入模式,稱為向最接近數舍入模式。

在把浮點數轉換為整數時,Java 虛擬機器使用 IEEE 754 標準中的向零舍入模式,這種模式的舍入結果會導致數字被截斷,所有小數部分的有效位元組都會被丟棄掉。向零舍入模式將在目標數值型別中選擇一個最接近,但是不大於原值的數字來作為最精確的舍入結果。

Java 虛擬機器在處理浮點數運算時,不會丟擲任何執行時異常(這裡所講的是 Java 的異常,請勿與 IEEE 754 規範中的浮點異常互相混淆),當一個操作產生溢位時,將會使用有符號的無窮大來表示,如果某個操作結果沒有明確的數學定義的話,將會時候 NaN 值來表示。所有使用 NaN 值作為運算元的算術操作,結果都會返回 NaN。

在對 long 型別數值進行比較時,虛擬機器採用帶符號的比較方式,而對浮點數值進行比較時(dcmpg、dcmpl、fcmpg、fcmpl),虛擬機器採用 IEEE 754 規範說定義的無訊號比較(Nonsignaling Comparisons)方式。

型別轉換指令

型別轉換指令可以將兩種 Java 虛擬機器數值型別進行相互轉換,這些轉換操作一般用於實現使用者程式碼的顯式型別轉換操作,或者用來處理 Java 虛擬機器位元組碼指令集中指令非完全獨立獨立的問題。

Java 虛擬機器直接支援(注:“直接支援”意味著轉換時無需顯式的轉換指令)以下數值的寬化型別轉換(Widening Numeric Conversions,小範圍型別向大範圍型別的安全轉換):

  • int 型別到 long、float 或者 double 型別
  • long 型別到 float、double 型別
  • float 型別到 double 型別

窄化型別轉換(Narrowing Numeric Conversions)指令包括有:i2b、i2c、i2s、l2i、f2i、f2l、d2i、d2l 和 d2f。窄化型別轉換可能會導致轉換結果產生不同的正負號、不同的數量級,轉換過程很可能會導致數值丟失精度。

在將 int 或 long 型別窄化轉換為整數型別 T 的時候,轉換過程僅僅是簡單的丟棄除最低位
N 個位元組以外的內容,N 是型別 T 的資料型別長度,這將可能導致轉換結果與輸入值有不同的正負號(注:在高位位元組符號位被丟棄了)。

在將一個浮點值轉窄化轉換為整數型別 T(T 限於 int 或 long 型別之一)的時候,將遵循以下轉換規則:

  • 如果浮點值是 NaN,那轉換結果就是 int 或 long 型別的 0
  • 否則,如果浮點值不是無窮大的話,浮點值使用 IEEE 754 的向零舍入模式(§2.8.1)
    取整,獲得整數值 v,這時候可能有兩種情況:

    • 如果 T 是 long 型別,並且轉換結果在 long 型別的表示範圍之內,那就轉換為 long
      型別數值 v
    • 如果 T 是 int 型別,並且轉換結果在 int 型別的表示範圍之內,那就轉換為 int
      型別數值 v
  • 否則:

    • 如果轉換結果 v 的值太小(包括足夠小的負數以及負無窮大的情況),無法使用 T 類
      型表示的話,那轉換結果取 int 或 long 型別所能表示的最小數字。
    • 如果轉換結果 v 的值太大(包括足夠大的正數以及正無窮大的情況),無法使用 T 類
      型表示的話,那轉換結果取 int 或 long 型別所能表示的最大數字。

從 double 型別到 float 型別做窄化轉換的過程與 IEEE 754 中定義的一致,通過 IEEE 754向最接近數舍入模式(§2.8.1)舍入得到一個可以使用 float 型別表示的數字。如果轉換結果的絕對值太小無法使用 float 來表示的話,將返回 float 型別的正負零。如果轉換結果的絕對值太大無法使用 float 來表示的話,將返回 float 型別的正負無窮大,對於 double 型別的 NaN
值將就規定轉換為 float 型別的 NaN 值。

儘管可能發生上限溢位、下限溢位和精度丟失等情況,但是 Java 虛擬機器中數值型別的窄化轉換永遠不可能導致虛擬機器丟擲執行時異常(此處的異常是指《Java 虛擬機器規範》中定義的異常,請讀者不要與 IEEE 754 中定義的浮點異常訊號產生混淆)。

物件建立與操作

雖然類例項和陣列都是物件,但 Java 虛擬機器對類例項和陣列的建立與操作使用了不同的位元組碼指令:

  • 建立類例項的指令:new
  • 建立陣列的指令:newarray,anewarray,multianewarray
  • 訪問類欄位(static 欄位,或者稱為類變數)和例項欄位(非 static 欄位,或者成為例項變數)的指令:getfield、putfield、getstatic、putstatic
  • 把一個陣列元素載入到運算元棧的指令:baload、caload、saload、iaload、laload、faload、daload、aaload
  • 將一個運算元棧的值儲存到陣列元素中的指令:bastore、castore、sastore、iastore、fastore、dastore、aastore
  • 取陣列長度的指令:arraylength
  • 檢查類例項型別的指令:instanceof、checkcas

運算元棧管理指令

Java 虛擬機器提供了一些用於直接操作運算元棧的指令,包括:pop、pop2、dup、dup2、dup_x1、dup2_x1、dup_x2、dup2_x2 和 swap。

控制轉移指令

控制轉移指令可以讓 Java 虛擬機器有條件或無條件地從指定指令而不是控制轉移指令的下一條指令繼續執行程式。控制轉移指令包括有:

  • 條件分支:ifeq、iflt、ifle、ifne、ifgt、ifge、ifnull、ifnonnull、if_icmpeq、if_icmpne、if_icmplt, if_icmpgt、if_icmple、if_icmpge、if_acmpeq 和 if_acmpne。
  • 複合條件分支:tableswitch、lookupswitch
  • 無條件分支:goto、goto_w、jsr、jsr_w、ret

在 Java 虛擬機器中有專門的指令集用來處理 int 和 reference 型別的條件分支比較操作,為了可以無需明顯標識一個實體值是否 null,也有專門的指令用來檢測 null 值。

boolean 型別、byte 型別、char 型別和 short 型別的條件分支比較操作,都使用 int 型別的比較指令來完成,而對於 long 型別、float 型別和 double 型別的條件分支比較操作,則會先執行相應型別的比較運算指令,運算指令會返回一個整形值到運算元棧中,隨後再執行 int 型別的條件分支比較操作來完成整個分支跳轉。由於各種型別的比較最終都會轉化為 int 型別的比較操作,基於 int 型別比較的這種重要性,Java 虛擬機器提供了非常豐富的
int型別的條件分支指令。

所有 int 型別的條件分支轉移指令進行的都是有符號的比較操作。

方法呼叫和返回指令

以下四條指令用於方法呼叫:

  • invokevirtual 指令用於呼叫物件的例項方法,根據物件的實際型別進行分派(虛方法分派),這也是 Java 語言中最常見的方法分派方式。
  • invokeinterface 指令用於呼叫介面方法,它會在執行時搜尋一個實現了這個介面方法的物件,找出適合的方法進行呼叫。
  • invokespecial 指令用於呼叫一些需要特殊處理的例項方法,包括例項初始化方法、私有方法和父類方法。
  • invokestatic 指令用於呼叫類方法(static 方法)。

而方法返回指令則是根據返回值的型別區分的,包括有 ireturn(當返回值是 boolean、byte、char、short 和 int 型別時使用)、lreturn、freturn、dreturn 和 areturn,另外還有一條 return 指令供宣告為 void 的方法、例項初始化方法、類和介面的類初始化方法使用。

丟擲異常

在程式中顯式丟擲異常的操作會由 athrow 指令實現,除了這種情況,還有別的異常會在其它 Java 虛擬機器指令檢測到異常狀況時由虛擬機器自動丟擲。

同步

Java 虛擬機器可以支援方法級的同步和方法內部一段指令序列的同步,這兩種同步結構都是使用管程(Monitor)來支援的。

方法級的同步是隱式,即無需通過位元組碼指令來控制的,它實現在方法呼叫和返回操作之中。虛擬機器可以從方法常量池中的方法表結構(method_info Structure)中的 ACC_SYNCHRONIZED 訪問標誌區分一個方法是否同步方法。當方法呼叫時,呼叫指令將會檢查方法的 ACC_SYNCHRONIZED 訪問標誌是否被設定,如果設定了,執行執行緒將先持有管程,然後再執行方法,最後再方法完成(無論是正常完成還是非正常完成)時釋放管程。在方法執行期間,執行執行緒持有了管程,其他任何執行緒都無法再獲得同一個管程。如果一個同步方法執行期間丟擲了異常,並且在方法內部無法處理此異常,那這個同步方法所持有的管程將在異常拋到同步方法之外時自動釋放。

同步一段指令集序列通常是由 Java 語言中的 synchronized 塊來表示的,Java 虛擬機器的指令集中有 monitorenter 和 monitorexit 兩條指令來支援 synchronized 關鍵字的語義,正確實現 synchronized 關鍵字需要編譯器與 Java 虛擬機器兩者協作支援。

結構化鎖定(Structured Locking)是指在方法呼叫期間每一個管程退出都與前面的管程進入相匹配的情形。因為無法保證所有提交給 Java 虛擬機器執行的程式碼都滿足結構化鎖定,所以 Java 虛擬機器允許(但不強制要求)通過以下兩條規則來保證結構化鎖定成立。假設 T 代表一條執行緒,M 代表一個管程的話:

  1. T 在方法執行時持有管程 M 的次數必須與 T 在方法完成(包括正常和非正常完成)時釋放管程 M 的次數相等。
  2. 找方法呼叫過程中,任何時刻都不會出現執行緒 T 釋放管程 M 的次數比 T 持有管程 M 次數多的情況。

請注意,在同步方法呼叫時自動持有和釋放管程的過程也被認為是在方法呼叫期間發生。