NO IMAGE

top命令經常用來監控linux的系統狀況,比如cpu、記憶體的使用,程式設計師基本都知道這個命令,但比較奇怪的是能用好它的人卻很少,例如top監控檢視中記憶體數值的含義就有不少的曲解。

本文通過一個執行中的WEB伺服器的top監控截圖,講述top檢視中的各種資料的含義,還包括檢視中各程序(任務)的欄位的排序。
 
top進入檢視
top檢視 01
top檢視 01
【top檢視 01】是剛進入top的基本檢視,我們來結合這個檢視講解各個資料的含義。
第一行:
10:01:23 當前系統時間
126 days, 14:29 系統已經執行了126天14小時29分鐘(在這期間沒有重啟過)
2 users 當前有2個使用者登入系統
load average: 1.15, 1.42, 1.44 load average後面的三個數分別是1分鐘、5分鐘、15分鐘的負載情況。
load average資料是每隔5秒鐘檢查一次活躍的程序數,然後按特定演算法計算出的數值。如果這個數除以邏輯CPU的數量,結果高於5的時候就表明系統在超負荷運轉了。
 
第二行:
Tasks 任務(程序),系統現在共有183個程序,其中處於執行中的有1個,182個在休眠(sleep),stoped狀態的有0個,zombie狀態(殭屍)的有0個。
 
第三行:cpu狀態
6.7% us 使用者空間佔用CPU的百分比。
0.4% sy 核心空間佔用CPU的百分比。
0.0% ni 改變過優先順序的程序佔用CPU的百分比
92.9% id 空閒CPU百分比
0.0% wa IO等待佔用CPU的百分比
0.0% hi 硬中斷(Hardware IRQ)佔用CPU的百分比
0.0% si 軟中斷(Software Interrupts)佔用CPU的百分比
在這裡CPU的使用比率和windows概念不同,如果你不理解使用者空間和核心空間,需要充充電了。
 
第四行:記憶體狀態
8306544k total 實體記憶體總量(8GB)
7775876k used 使用中的記憶體總量(7.7GB)
530668k free 空閒記憶體總量(530M)
79236k buffers 快取的記憶體量 (79M)
 
第五行:swap交換分割槽
2031608k total 交換區總量(2GB)
2556k used 使用的交換區總量(2.5M)
2029052k free 空閒交換區總量(2GB)
4231276k cached 緩衝的交換區總量(4GB)
 
這裡要說明的是不能用windows的記憶體概念理解這些資料,如果按windows的方式此臺伺服器危矣:8G的記憶體總量只剩下530M的可用記憶體。Linux的記憶體管理有其特殊性,複雜點需要一本書來說明,這裡只是簡單說點和我們傳統概念(windows)的不同。
 
第四行中使用中的記憶體總量(used)指的是現在系統核心控制的記憶體數,空閒記憶體總量(free)是核心還未納入其管控範圍的數量。納入核心管理的記憶體不見得都在使用中,還包括過去使用過的現在可以被重複利用的記憶體,核心並不把這些可被重新使用的記憶體交還到free中去,因此在linux上free記憶體會越來越少,但不用為此擔心。
如果出於習慣去計算可用記憶體數,這裡有個近似的計算公式:第四行的free 第四行的buffers 第五行的cached,按這個公式此臺伺服器的可用記憶體:530668 79236 4231276 = 4.7GB。
 
對於記憶體監控,在top裡我們要時刻監控第五行swap交換分割槽的used,如果這個數值在不斷的變化,說明核心在不斷進行記憶體和swap的資料交換,這是真正的記憶體不夠用了。
 
第六行是空行
第七行以下:各程序(任務)的狀態監控
PID 程序id
USER 程序所有者
PR 程序優先順序
NI nice值。負值表示高優先順序,正值表示低優先順序
VIRT 程序使用的虛擬記憶體總量,單位kb。VIRT=SWAP RES
RES 程序使用的、未被換出的實體記憶體大小,單位kb。RES=CODE DATA
SHR 共享記憶體大小,單位kb
S 程序狀態。D=不可中斷的睡眠狀態 R=執行 S=睡眠 T=跟蹤/停止 Z=殭屍程序
%CPU 上次更新到現在的CPU時間佔用百分比

%MEM 程序使用的實體記憶體百分比
TIME 程序使用的CPU時間總計,單位1/100秒
COMMAND 程序名稱(命令名/命令列)

多U多核CPU監控
在top基本檢視中,按鍵盤數字1,可監控每個邏輯CPU的狀況:
 
top檢視 02
top檢視 02
觀察上圖,伺服器有16個邏輯CPU,實際上是4個物理CPU。
程序欄位排序
預設進入top時,各程序是按照CPU的佔用量來排序的,在【top檢視 01】中程序ID為14210的java程序排在第一(cpu佔用100%),程序ID為14183的java程序排在第二(cpu佔用12%)。可通過鍵盤指令來改變排序欄位,比如想監控哪個程序佔用MEM最多,我一般的使用方法如下:
1. 敲擊鍵盤b(開啟/關閉加亮效果),top的檢視變化如下:
 
top檢視 03
top檢視 03
我們發現程序id為10704的top程序被加亮了,top程序就是檢視第二行顯示的唯一的執行態(runing)的那個程序,可以通過敲擊y鍵關閉或開啟執行態程序的加亮效果。
2. 敲擊鍵盤x(開啟/關閉排序列的加亮效果),top的檢視變化如下:
 
top檢視 04
top檢視 04
可以看到,top預設的排序列是%CPU。
3. 通過shift >或shift <可以向右或左改變排序列,下圖是按一次shift >的效果圖:
 
top檢視 05
top檢視 05
檢視現在已經按照%MEM來排序了。
改變程序顯示欄位
1. 敲擊f鍵,top進入另一個檢視,在這裡可以編排基本檢視中的顯示欄位:
 
top檢視 06
top檢視 06
這裡列出了所有可在top基本檢視中顯示的程序欄位,有*並且標註為大寫字母的欄位是可顯示的,沒有*並且是小寫字母的欄位是不顯示的。如果要在基本檢視中顯示CODE和DATA兩個欄位,可以通過敲擊r和s鍵:
 
top檢視 07
top檢視 07
2. 回車返回基本檢視,可以看到多了CODE和DATA兩個欄位:
 
top檢視 08
top檢視 08
top命令的補充
top命令是Linux上進行系統監控的首選命令,但有時候卻達不到我們的要求,比如當前這臺伺服器,top監控有很大的侷限性。這臺伺服器執行著websphere叢集,有兩個節點服務,就是【top檢視 01】中的老大、老二兩個java程序,top命令的監控最小單位是程序,所以看不到我關心的java執行緒數和客戶連線數,而這兩個指標是java的web服務非常重要的指標,通常我用ps和netstate兩個命令來補充top的不足。
 
監控java執行緒數:
ps -eLf | grep java | wc -l
監控網路客戶連線數:
netstat -n | grep tcp | grep 偵聽埠 | wc -l
上面兩個命令,可改動grep的引數,來達到更細緻的監控要求。
 
在Linux系統一切都是檔案的思想貫徹指導下,所有程序的執行狀態都可以用檔案來獲取。系統根目錄/proc中,每一個數字子目錄的名字都是執行中的程序的PID,進入任一個程序目錄,可通過其中檔案或目錄來觀察程序的各項執行指標,例如task目錄就是用來描述程序中執行緒的,因此也可以通過下面的方法獲取某程序中執行中的執行緒數量(PID指的是程序ID):
 
ls /proc/PID/task | wc -l
在linux中還有一個命令pmap,來輸出程序記憶體的狀況,可以用來分析執行緒堆疊:
pmap PID