NO IMAGE

轉自:http://www.cnblogs.com/xrwang/archive/2010/03/27/BackgroundGenerationAndForegroundDetectionPhase2.html

作者:王先榮

    本文嘗試對《學習OpenCV》中推薦的論文《Nonparametric Background Generation》進行翻譯。由於我的英文水平很差,斷斷續續搞了好幾天才勉強完成,裡面肯定會有諸多錯誤,歡迎大家指正,並請多多包涵。翻譯本文的目的在於學習研究,如果需要用於商業目的,請與原文作者聯絡。

非引數背景生成
劉亞洲,姚鴻勳,高文,陳熙霖,趙德斌
哈爾濱工業大學
中國科學院計算所

摘要
    本文介紹了一種新穎的背景生成方法,該方法基於非引數背景模型,可用於背景減除。我們介紹一種新的名為影響因素描述(effect components description ECD)的模型,用於描述背景的變動;在此基礎上,我們可以用潛在分佈的區域性極值推匯出最可靠背景狀態(most reliable background mode MRBM)。該方法的基本計算過程採用Mean Shift這一經典的模式識別過程。Mean Shift通過迭代計算,能夠在資料的密度分佈中找到最近位置的點(譯者注:即找到資料最密集的點)。這種方法有三個優點:(1)能從包含混亂運動物件的視訊中提取出背景;(2)背景非常清晰;(3)對噪聲和小幅度的(攝像機)振動具有魯棒性。廣泛的實驗結果證明了上述優點。

    關鍵詞:背景減除,背景生成,Mean Shift,影響因素描述,最可靠背景狀態,視訊監視

1 引言

    在許多計算機視覺和視訊分析應用中,運動物件的分割是一項基本任務。例如,視訊監視,多媒體索引,人物檢測和跟蹤,有知覺的人機介面,“小精靈”視訊編碼。精確的物件分割能極大的提高物件跟蹤,識別,分類和動態分析的效能。識別運動物件的通用方法有:光流,基於時間差異或背景減除的方法。其中,背景減除最常用。背景模型被計算出,並逐幀進化;然後通過比較當前幀和背景模型間的差異來檢測運動物件。這種方法的關鍵之處在於建立並維持背景模型。儘管文獻【1-4】提出了很多有前途的方法,但是運動物件檢測的精度這一基本問題仍然難以解決。第一個問題是:背景模型必須儘可能精確的反映真實背景,這樣系統才能精確的檢測運動物件的外形。第二個問題是:背景模型必須對背景場景的改變足夠靈敏,例如物件開始運動及停止運動。如果不能適當的解決上述問題,背景減除會檢測出虛假物件,它們通常被稱為“幽靈”。

    目前已經有了許多用於背景減除的背景建立和維持方法。按背景建模的步驟來分類,我們可以將其分為引數化的和非引數化的方法。引數化的背景建模方法通常假設:單個畫素的潛在概率密度函式是高斯或者高斯混合函式,詳情請參看文獻【5-7】。Stauffer和Grimson在文獻【8】中提出了一種自適應的背景減除方法,用於解決運動分割問題。在他們的工作成果中,他們為每個畫素建立了高斯混合概率密度函式,然後用即時的近似值更新該模型。文獻【9,10】提出了對高斯混合模型的一些改進方法。Toyama等人在文獻【2】中提出了一種三層的Wallflower方案,該方案嘗試解決背景維持中現存的許多問題,例如燈光開啟關閉,前景孔穴等等。Haritaoglu等人在文獻【1】中提出的W4方法,該方法為背景建模而對每個畫素保留了三個值的方法,包括最大值(M),最小值(N)和最大幀間絕對差值(D)。Kim等人在文獻【11】中,將背景值量化到編碼本,編碼本描述了長視訊中背景模型的壓縮形式。

    另一類經常用到的背景模型方法基於非引數化的技術,例如文獻【3,12-16】。Elgammal等人在文獻【3】中,通過核密度估計建立了一種非引數化的背景模型。對每個畫素,為了估計潛在的概率密度函式而保留了觀測強度值,而新強度值的概率能通過該函式計算得出。這種模型具有魯棒性,能夠適應混亂及不完全靜止但包含小擾動場合下的背景,例如擺動的樹枝和灌木。

    與引數化的背景模型方法相比,非引數化的背景模型方法具有以下優點:不需要指定潛在的模型,不需要明確的估計引數【14】。因此,它們能適應任意未知的資料分佈。這個特性使非引數化的方法成為許多計算機視覺應用的有力工具。在許多計算機視覺應用中,許多問題牽涉到多元多種形式的密度,資料在特徵空間中沒有規則的形態,沒有遵循標準的引數形式。但是,從時間和空間複雜度這一方面來看,非引數化的方法不如引數化的方法有效。引數化的方法產生簡潔的密度描述(例如高斯或高斯混合),得出有效的估計狀態。相對的,非引數化的方法在學習階段幾乎不需要計算,然而在評估階段需要高密度的計算。因此,非引數化方法的主要缺陷是它們的計算量。不過一些革新的工作成果已經被提出,它們能加快非引數化方法的評估速度,例如文獻【13】中的快速高斯變換(FGT),文獻【17】中的新ball
tree演算法,核密度估計和K近鄰(KNN)分類。

    本文專注於非引數化的方法,跟Elagammal在文獻【3】中提出的方法有緊密的聯絡,但是有兩點本質上的區別。從基本原理上看,我們用影響因素描述(ECD)來為背景的變化建模,最可靠背景模型(MRBM)對背景場景的估計具有魯棒性。從計算過程來看,通過使用Mean Shift過程,我們避免了對每個新觀測強度值計算概率的核密度估計過程,節約了處理時間。在我們的方法中,僅用幀差即可決定畫素的屬性。因此能提高背景減除的魯棒性和效率。

    本文餘下的部分按以下方式來組織:第二節中提出了影響因素描述,用於反映背景的變化;第三節詳細解釋了最可靠背景模型;第四節包含了實驗結果;第五節討論了有待擴充的部分。

2 影響因素描述
    本節討論影響因素描述(ECD),我們試圖通過它來有效的模擬背景的變化。

    背景減除的關鍵因素在於怎樣建立並維持好的背景模型。由於在不同的應用中,攝像機型別、捕獲的環境和物件完全不同,背景模型需要足夠的自適應能力來適應不同的情況。為了有效的為背景建模,我們從最簡單的理想情況開始。在理想情況下,對於視訊中的每個空間位置,沿時間軸的強度值為常量C;常量C表示固定攝像機攝錄了固定的場景(沒有運動物件和系統噪聲)。我們將這種情況下的場景稱為理想背景場景。但是在實際應用中,很少能遇到這種理想情況。因此,背景畫素可以看成是理想背景場景和其他影響部分的組合體。我們將這種方法定義為背景的影響成分描述,包括以下方面:

系統噪聲 N-sys:它由影象感測器和其他硬體裝置引起。如果環境不太嚴密,系統噪聲不會從根本上影響常量C,僅僅引起適度的偏差。
運動的物件 M-obj:它由實際運動的物件及其陰影引起。大多數時候,它對C有極大的干擾。
運動的背景 M-bgd:它由運動的背景區域引起,例如戶外場景中隨風擺動的樹枝,或者水中的波紋。
光照 S-illum:它表示戶外隨太陽位置改變而漸變的光照,或者室內燈光的關閉和開啟而改變的照明。
攝像機位移 D-cam:它表示攝像機的小幅度位移而引起的畫素強度變化。

    場景的觀測值(記為V-obsv)由理想背景場景C和有效成分組成,如公式(1)所示。
    V-obsv = C N-sys M-obj M-bgd S-illum D-cam    (1)
    在這裡我們用符號 來表示影響因素的累積效果。

    實際上,上述影響因素能進一步分為表1所示的不同屬性。首先需要被強調的屬性是過程,我們可以按過程將影響因素分為長期影響和短期影響。我們沿時間軸將視訊流分成長度相等的塊,如圖1所示。長期表示影響因素會持續數塊或者一直存在,例如N-sys、S-illum和D-cam。而M-obj和M-bgd僅僅偶爾發生,不會長期持續,因此我們稱之為短期影響。

圖1 將視訊流分為等長的塊

    另一種分類的標準是偏差。我們把S-illum、D-cam、M-bgd看作時間不變的常駐偏差影響。在較長的過程中,這些影響可以看作是對理想背景值C持久的增加(減少),或者替代。以S-illum為例,如果處於室內場景,並且開啟照明,在接下來的幀中S-illum可以看成是對C持久的增加。而N-sys和M-obj在不同時刻有隨機的值,我們稱之為隨時間變化的隨機偏差影響。上述分析歸納到了表1中。
表1 影響因素的分類
                          長期          短期    
常駐偏差    S-illum,D-cam    M-bgd    
隨機偏差    N-sys                  M-obj    

    在此必須闡明以下兩點:(1)上述分類並不絕對,取決於我們選擇的塊長度;但是它不影響我們接下來的分析;(2)也許某人會指出對S-illum的分類不正確,例如行駛汽車的燈光不是長期影響;這種情況下的光照變化屬於短期影響,跟M-obj類似,因此我們不把它單獨列為獨立的影響因素。

    由於S-illum和D-cam對理想背景C有長期持續的偏差,我們將它們合併到理想背景中,得到C’ = C S-illum D-cam。對這種合併的直接解釋是:如果光照發生變化或者攝像機變動位置,我們有理由假設理想背景已經改變。因此將公式(1)表示成:
V-obsv = C’ N-sys M-obj M-bgd    (2)
    到目前為止,觀測值V-obsv由新的理想背景值C’ 和影響因素(N-sys、M-obj、M-bgd)組成。這些影響因素對C’有不同的影響,歸納成以下兩點:
N-sys在整個視訊流中存在,並對C’有些許影響。因此,大部分觀測值都不會偏離C’太遠。
M-obj和M-bgd僅僅偶爾發生,但對C’引起很大的偏差。因此,僅僅小部分觀測值顯著的不同於C’。

    得出以下結論:空間位置的畫素值在大部分時間內保持穩定並伴隨些許偏差(由於長期存在的隨機偏差N-sys);僅僅當運動物件通過該畫素時引起顯著的偏差(由於短期偏差M-obj和M-bgd)。因此一段時間內,少數顯著偏差形成了極值。大部分時間都存在這種屬性,不過有時也並非如此。在圖2中顯示了白色圓心處畫素值隨時間而變化的圖表。圖2(a)~(c)節選自一段長達360幀的視訊,圖2(d)描繪了畫素強度的變化。從圖2(d)我們可以看出:由系統噪聲引起的小幅度偏差佔據了大部分時間,僅當有運動物件(及其陰影)經過時引起了顯著的偏差。這與影響因素描述是相符的。

圖2 顯示ECD效果的例子

    我們的任務是從觀測值序列{V-obsv t}(t=1….T,T指時間長度)中找到理想背景C’的估計值C’^。通過上述分析,我們發現C’^位於多數觀測值的中點。從另一方面來看,C’^處於潛在分佈梯度為0和最密集的地方。這個任務可由Mean Shift過程來完成。我們將C’^稱為最可靠背景狀態。

3 用於運動物件檢測的最可靠背景狀態

基於第二節所講的影響因素描述,我們推知:大部分觀測值所處區域的中心是背景的理想估計。我們將這個估計用符號C’^表示,並稱為最可靠背景狀態(MRBM)。定位MRBM的基本計算方式是Mean Shift。一方面,通過使用MRBM,我們能夠為混亂運動物件的視訊生成非常清晰的背景影象。另一方面,Mean Shift過程能發現強度分佈的一些區域性極值,這種資訊能從真實的運動物件中區別出運動的背景(例如戶外隨風擺動的樹枝,或者水中的波紋)。

3.1 用於MRBM的Mean Shift

    Mean Shift是定位密度極值的簡明方式,密度極值處的梯度為0.該理論由Fukunaga在文獻【18】中提出,而Mean Shift的平滑性和收斂性由Comaniciu和Meer在文獻【19】中證實。近幾年它已成為計算機視覺應用的有力工具,並報道了許多有前途的成果。例如基於Mean Shift的影象分割【19-21】和跟蹤【22-26】。

    在我們的工作成果中,我們用Mean Shift來定位強度分佈的極值(注意:可能有多個區域性極值)。我們將最大密度狀態定義為MRBM。演算法的要點如圖3所示,包括下列步驟:

樣本選擇:我們為每個畫素選擇一組樣本S = {xi},i=1,…,n,其中xis是畫素沿時間軸的強度值,n是樣本數目。我們直接對樣本進行Mean Shift運算,以便定位密度的極值。
典型點選擇:為了減少計算量,我們從S中選擇或者計算出一組典型點(典型點數目為m,m<<n),並將這組典型點記為P = {pi},i=1,…,m。P中的典型點可以是樣本的抽樣結果,也可以是原始樣本點的區域性平均值。在我們的實驗中,我們選擇區域性平均值。
Mean Shift過程:從P中的典型樣本點開始運用Mean Shift過程,我們可以得到收斂點m。值得注意的是,Mean Shift計算仍然基於整個樣本點集S。所以,梯度密度估計的精度並未因為使用典型點而降低。
提取候選背景模型:由於一些收斂點非常接近甚至完全一樣,這些收斂點m可以被聚集為q組(q≤m)。我們能夠獲取q帶權重的聚集中心,C = {{ci,wi}},i=1,….,q,其中ci是每個聚集中心的強度值,wi是聚集中心的權重。每組的點數記為li, i=1,….,q,∑i=1qli=m。每組中心的權重定義為:wi = li / m, i=1,….,q。
獲取最可靠背景模型:C’^ = ci*,其中i* = argi max{wi},C’^是第二節提到的最可靠背景模型。

圖3 MRBM演算法的要點

    對於每個m典型點,第三步中的Mean Shift實現過程依照以下步驟:
(1)初始化Mean Shift過程的起點:y1=pi。
(2)反覆運用Mean Shift過程yt 1 = ….直至收斂。(這裡我們選用跟文獻【19】一樣的Mean Shift過程,函式g(x)是核函式G(x)。)
(3)儲存收斂點yconv,用於後續分析。

    在對所有畫素運用上述步驟之後,我們能用MRBM生成背景場景B。通過上述分析,我們發現背景生成過程的時間複雜度為O(N·m),空間複雜度為O(N·n),其中N是視訊的長度。

3.2 運動物件檢測與背景模型維持

    生成背景模型之後,我們可以將其用於檢測場景中的運動區域。為了使我們的背景模型對運動背景具有魯棒性(例如戶外隨風擺動的樹枝,或者水中的波紋),我們將k個聚集中心選為可能的背景值。我們將這組集合定義為Cb = {{ci,wi} | wi ≥ θ},i=1,….,k,其中Cb⊆C,θ是預定義的閥值。對於每個新的觀測強度值x0,我們僅僅計算x0與Cb中元素的最小差值d,其中d = min{(x0-ci) | {ci,wi}∈Cb}。如果差值d大於預定義的閥值t,我們認為新的觀測強度值是前景,否則為背景。

    背景維持能讓我們的背景模型適應長期的背景變化,例如新停泊的汽車或者逐漸改變的光照。當我們觀察一個新畫素值時,背景模型按下列步驟來更新:
(1)對每個新畫素值,我們視其為新典型樣本點。因此典型樣本點的數目變為:m = m 1。
(2)如果新畫素值屬於背景區域,假設其強度值與聚集中心{ci,wi}最近,我們將該中心的權重更新為:wi =  (li 1) / m。
(3)如果新畫素值屬於前景區域,我們從這點開始運用新的Mean Shift過程,這樣可以獲取到新的收斂中心{cnew,wnew},其中wnew初始化為:wnew = 1 / m。聚集中心C被擴充成:C = C ∪ {{cnew,wnew}}。

    背景減除的時間複雜度是O(N),背景維持的時間複雜度是O(R),其中N是視訊的幀數,R是運動物件的數目。

4 實驗

    我們專注於兩類MRBM應用:背景生成和背景減除。我們在合成視訊和標準PETS資料庫上比較MRBM與其他常用的方法。原始碼用C 實現,測試用電腦的配置如下:CPU為Pentium 1.6GHZ,記憶體512M。

    我們自己捕獲或者合成的視訊尺寸為320×240畫素,PETS資料庫的視訊尺寸為384/360×288畫素,幀速率均為25fps。在所有的實驗中,我們選擇YUV(4:4:4)色彩空間作為特徵空間。演算法實現的描述見第三節,我們採用了Epanechnikov核,K(t) = 3 / 4 *(1 – t2) 。

    理論上,更大的訓練集能得到更穩定的背景模型,但是會犧牲適應性。我們的實驗表明,當n=100時,能夠使背景影象得到最佳的可視質量和適應性。典型點數m影響訓練時間及背景模型的可靠性。在我們的實驗中,我們為Mean Shift過程選擇m=10個典型點,這時的訓練時間與高斯混合模型接近。閥值θ和t影響檢測的精度,對不同的資料集可能有不同的θ和t。在我們的實驗中當θ=0.3,t=10時,能夠得到最大的準確率和最小的錯誤率。如果沒有特別說明,所有實驗使用上述設定。

4.1 背景生成

    在許多監控和跟蹤應用中,期望生成沒有運動物件的背景影象,它能為更進一步的分析提供參考資訊。但是很多時候,並不容易獲得沒有運動物件的的視訊。我們的演算法能從包含混亂運動物件的視訊中提取非常清晰的背景影象。圖4顯示了一些生成的背景。視訊共有360幀,我們將前100幀用於生成背景。圖中顯示了第1,33,66,99幀影象。圖4的底部顯示了演算法生成的背景。以圖4(c)為例,這段視訊攝自校園的上下課時間,每幀中都有10名步行的學生。觀察圖4(c)最下面的背景影象,我們發現背景非常清晰,所有運動物件都被成功的抹去了。

圖4 由MRBM生成的背景影象(每段視訊顯示了第1,33,66,99幀)

    運動物件的移動速度是關鍵因素,它能顯著的影響背景模型,包括我們的背景模型。我們用一段300幀的視訊來評估演算法,該視訊裡有一位緩慢走動的女士。第1,30,60,90,120幀影象分別顯示在圖5(a)~(e)中。用不同數目的樣本影象生成的背景顯示於圖5(f)~(j)。當保持100幀樣本影象時,生成的背景中有一些噪點,但是背景的整體質量得以保證。噪點區域用白色橢圓標出了,如圖5(f)所示。當我們將樣本數目增加到300時,背景變得非常清晰,如圖5(j)所示。

圖5 由不同樣本數(n=100,150,200,250,300)生成的背景影象(視訊中有一位緩慢走動的女士,顯示了視訊中的第1,30,60,90,120幀影象)

    我們也對我們的背景生成方法與其它基本方法做了比較,例如高斯模型具有多個聚集中心的高斯混合模型。為了區分比較結果,我們合成了一段多模態背景分佈視訊。背景的畫素由高斯混合分佈生成,pbg(x) = ∑i=12αiGμi,σi(x),其中引數α1=α2=0.5,σ1=σ2=6,μ1=128,μ2=240。前景物件的畫素由高斯分佈生成,pfg(x) = Gμ,σ(x),其中引數μ=10,σ=6。上述兩式中,Gμ,σ(·)代表具有均值μ和標準偏差σ的高斯分佈。背景畫素及前景畫素的強度分佈見圖6。

圖6 視訊中的背景畫素強度分佈(藍色曲線)及前景畫素強度分佈(紅色曲線)

    視訊共有120幀,我們用前100幀來生成背景。圖7(a)~(e)顯示了一些選定的幀,生成的背景影象顯示在圖7(f)~(i)中,從潛在分佈生成的“地面實況”樣本顯示於圖7(j)中。 對於高斯模型,背景畫素的強度值被選為高斯均值,生成的背景影象如圖7(f)所示。對於高斯混合模型,我們選擇帶maxim的高斯混合均值為背景值。圖7(g)顯示了2箇中心的高斯混合模型,圖7(h)顯示了3箇中心的高斯混合模型。實驗所用的高斯混合模型使用OpenCV中的實現,見文獻【27】。MRBM方法得到的結果如圖7(i)所示。

圖7 由不同模型從合成視訊中生成的背景影象。(a)~(e)中顯示了第1,20,40,60,80幀影象。(f)~(i)顯示了由高斯模型、2中心高斯混合模型、3中心  高斯混合模型及最可靠背景模型生成的背景影象。(j)顯示了地面實況樣本背景影象。
    比較地面實況影象和生成的背景影象,我們發現非引數模型MRBM優於其它方法。憑直覺,在處理多模分佈時,MRBM看起來與高斯混合模型類似。但是關鍵的不同之處在於高斯模型依賴均值和方差。它們的1階和2階統計資料對外部點(outliers 遠離資料峰值的點)非常敏感。如果物件的運動速度慢,存在足夠的前景值導致錯誤的均值,結果得出錯誤的背景值。作為對照,MRBM跟分佈無關,僅僅使用極值作為可能的背景值,它對外部點更魯棒。其他引數方法存在類似的問題,當預定義的模型不能描述資料分佈時更加明顯。

4.2 背景減除

    圖8顯示了我們演算法的背景減除結果。圖8(a)顯示觀測到的當前幀,圖8(b)顯示用MRBM從100幀樣本生成的背景影象,圖8(c)顯示了背景減除的結果影象,我們發現運動物件變得很突出。我們比較了MRBM和其它常用的基本方法,例如文獻【1】中的最大最小值法,文獻【28,29】中的中值法,文獻【8,6】中的高斯混合模型。比較結果顯示於圖9。由於我們不能修改這些原始工作成果的實現方式,只能按以下方式來管理基礎演算法:(1)對於W4,我們按原始成果中的建議來設定引數;(2)對於中值法和高斯混合模型,我們調整引數使其達到最好的檢測精度。另外,為了使比較儘量公平,我們只做背景減除,沒有進行降噪和形態學處理。

圖8 背景減除結果

    最佳的視訊序列選自PETS資料庫【30-32】,選定幀如圖9(a)所示。對所有的視訊序列,我們用100幀來生成背景,用第40幀做背景減除。這些視訊序列包含兩種主要的場景:緩慢運動的物件(如PETS00和PETS06),多模態背景(如PETS01中擺動的樹);這兩種場景是背景減除中的不同情況。對於緩慢運動的物件,高斯模型的結果比較差,因為高斯均值對外部點敏感,如圖9(d)所示。而MRBM依賴於背景分佈的極值,外部點對其影響很小。同樣,中值法和最大最小值法不能很好的應對多模態背景,PETS01中擺動的樹被誤認為前景。跟預期一致,MRBM優於其它三種方法。

圖9 不同方法得到的背景減除結果。(a)標準PETS資料庫,(b)最大最小值法,(c)中值法,(d)高斯混合模型,(e)最可靠背景模型

4.3 討論可能的欠缺

    儘管MRBM適用於許多應用,仍然存在一些不能應對的場合,圖10就是不能應對的例子。在這個實驗中,視訊共有300幀,我們用前120幀來生成背景。圖10(a)~(g)分別顯示了第1,20,40,60,80,100,120幀,背景影象顯示在圖10(h)中。前景人物的很大一部分被誤認為背景。

圖10 一個MRBM不能正確處理的例子。分別顯示了第1,20,40,60,80,100,120幀影象。

通常,前景和背景的定義從自身來看並不明確。它包含在場景的語義中,在不同的應用中可能不一致。在我們的應用中,我們將運動物件定義為前景,將靜止(或者幾乎靜止)的東西定義為背景,這與大多數視訊監控應用的定義一致。通過第二節的分析,我們試圖用ECD模型來近似觀測值。在圖10的實驗中,人物在大部分時間保持靜止,然後突然運動。這種情況下,大部分觀測強度值屬於人物,而非背景。對於人物的肩膀部分尤其明顯,肩膀部分有相似的顏色,以致於檢測不到運動。因此前景人物的大部分被誤認為背景。

    實際上,這個例子反映了背景模型的根本問題:穩定性與適應性。理論上,如果我們增加用於訓練的背景幀數,我們能得到更清晰的背景影象。但是同時,會極大的犧牲背景模型的適應性。當背景改變(例如新停泊的汽車或者突然改變的光照),背景模型需要很長的時間才能適應新情況,將產生大量的錯誤。

    針對該問題,一種有效的解決方案是:將現有的基於畫素的方法擴充套件為基於區域或者基於幀的方法。通過分割影象或者完善畫素級的低階分類可以實現它。更進一步,可以同時使用低階物件分割和高階資訊(例如跟蹤或者事件描述)。因此,我們接下來的工作將專注於如何結合空間和高階資訊。

5 結論

    本文主要有兩點貢獻:(1)我們介紹的影響因素描述可用於對變化的背景進行建模;(2)基於ECD,我們開發了一種魯棒的背景生成方法——最可靠背景模型。應用MRBM,能從包含混亂運動物件的視訊序列中生成高質量的背景影象。一些例子顯示了這種方法的有效性和魯棒性。

    然而,仍然存在一些有待解決的問題。當前的工作中僅僅考慮了畫素的時間資訊。怎麼結合空間資訊來提高本方法的魯棒性是後續工作的重點。一種直接的擴充套件是:將當前基於畫素的方法修改成熔合了鄰域資訊基於區域的方法。另外,結合使用低階分割和高階跟蹤資訊,對我們的工作成果也將有極大的提高。

6 致謝

    在此要感謝陳熙霖博士和山世光博士,他們跟作者進行了很有幫助的討論。這項研究的經費由以下單位贊助:中國自然科學基金會、中國科學院百名人才培養計劃、上海銀晨智慧識別科技有限公司。

參考文獻

[1] I.Haritaoglu, D.Harwoodand, L.S.Davis, W4:real-time surveillance of people and their activities, IEEE Transactions on Pattern Analysis and Machine Intelligence 22 (8) (2000) 809–830.
[2] K.Toyama, J.Krumm, B.Brumitt,B.Meyers., WallFlower: Principles and Practice of background maintenance, in: IEEE International Conferenceon Computer Vision, Corfu, Greece, 1999, pp. 255–261.
[3] A.Elgammal, D.Harwood, L.Davis, Non-parametric model for background subtraction, in: European Conference on Computer Vision, Dublin, Ireland, 2000, pp. 751–767.
[4] T.E.Boult, R.J.Micheals, X.Gao, M.Eckmann, Intothewoods: visual Surveillance of noncooperative and camouflaged targets in complex outdoor 
settings, Proceedings of the IEEE 89 (2001) 1382–1402.
[5] C.R.Wren, A.Azarbayejani, T.Darrell, A.P.Pentland, Pfinder: Real-time Tracking of the human body, IEEE Transactions on Pattern Analysis and 
Machine Intelligence 19 (7) (1998) 780–785.
[6] C.Stauffer, W.Grimson, Adaptive background mixture models for real-time tracking, in: IEEE Conference on Computer Vision and Pattern Recognition, FortCollins, USA, 1999, pp. 246–252.
[7] S.Rowe, A.Blake, Statistical background modelling for tracking with a virtual camera, in: British Machine Vision Conference, Birmingham, UK, 1995, pp. 423–432.
[8] C.Stauffer, W.E.L.Grimson, Learning patterns of activity using real-time tracking, IEEE Transactions on Pattern Analysis and Machine Intelligence 22 (8) (2000) 747–757.
[9] L.Li, W.Huang, I.Y.Gu, Q.Tian, Foreground object detection in changing Background based on color co-occurrence statistics, in: IEEE Workshop on Applications of Computer Vision, Orlando, Florida, 2002, pp. 269–274.
[10] P.KaewTraKulPong, R.Bowden, An improved adaptive background mixture Model for real-time tracking with shadow detection, in: European Workshop on Advanced Video Based Surveillance Systems, Kluwer Academic, 2001.
[11] K.Kim, T.Chalidabhongse, D.Harwood, L.Davis, Real-time foreground-Background segmentation using codebook model, Real Time Imaging 11 (3) (2005) 172–185.
[12] A.Elgammal, R.Duraiswami, L.Davis, Effcient non-parametric adaptive color Modeling using fast gauss transform, in: IEEE Conference on Computer Vision And Pattern Recognition, Vol. 2, 2001, pp. 563–570.
[13] A.M.Elgammal, R.Duraiswami, L.S.Davis, Effcient kernel density estimation Using the fast gauss transform with applications to color modeling and tracking., IEEE Transactions on Pattern Analysis and Machine Intelligence 25 (11) (2003) 1499–1504.
[14] A.Elgammal, Effcient nonparametric kernel density estimation for realtime computer vision, Ph.D. thesis, Rutgers, The State University of New Jersey (2002).
[15] H.Askar, X.Li, Z.Li, Background clutter suppression and dim moving point Targets detection using nonparametric method, in: International Conference on Communications, Circuits and Systems and West Sino Expositions, Vol. 2, 2002, pp. 982–986.
[16] D.Thirde, G.Jones, Hierarchical probabilistic models for video object Segmentation and tracking, in: International Conference on Pattern 
Recognition, Vol. 1, 2004, pp. 636–639.

[17] T.Liu, A.W.Moore, A.Gray, Effcient exact k-nn and nonparametric Classification in high dimensions, in: Neural Information Processing Systems, 2003, pp. 265–272.
[18] K.Fukunaga, L.Hostetler, The estimation of the gradient of adensity function, With applications in pattern recognition, IEEE Transactions on Information Theory 21 (1975) 32–40.
[19] D.Comaniciu, P.Meer, Mean shift: a robust approach toward feature space analysis, IEEE Transactions on Pattern Analysis and Machine Intelligence 24 (5) (2002) 603–619.
[20] I.Y.-H.Gu, V.Gui, Colour image segmentation using adaptive mean shift filters, in: International Conference on Image Processing, 2001, pp. 726–729.
[21] L.Yang, P.Meer, D.J.Foran, Unsupervised segmentation based on robust Estimation and color active contour models, IEEE Transactions on Information Technology in Biomedicine 9 (3) (2005) 475–486.
[22] D.Comaniciu, V.Ramesh, P.Meer, Kernel-based object tracking, IEEE Transactions on Pattern Analysis and Machine Intelligence 25 (5) (2003) 564– 577.
[23] R.T.Collins, Y.Liu, On-line selection of discrimin ative tracking features, in: International Conference on Computer Vision, 2003, pp. 346–352.

[24] R.Collins, Y.Liu, M.Leordeanu, On-line selection of discriminative tracking features, IEEE Transactions on Pattern Analysis and Machine Intelligence 27 (10) (2005) 1631–1643.
[25] O.Debeir, P.V.Ham, R.Kiss, C.Decaestecker, Tracking of migrating cells under phase-contrast video microscopy with combined mean-shift processes, IEEE Transactions on Medical Imaging 24 (6) (2005) 697–711.
[26] C.Shen, M.J.Brooks, A.van den Hengel, Fast global kernel density Mode seeking with application to localisation and tracking, in: International 
Conference on Computer Vision, 2005, pp. 1516–1523.
[27] Intel open source computer vision library (2004).
URL http://www.intel.com/technology/computing/opencv/
[28] B.Lo, S.Velastin, Automatic congestion detection system for underground platforms, in: International Symposium on Intelligent Multimedia, Video and Speech Processing, Hong Kong, China, 2001, pp. 158–161.
[29] R.Cucchiara, C.Grana, M.Piccardi, A.Prati, Detecting moving objects, ghosts, and shadows in video streams, IEEE Transactions on Pattern Analysis and Machine Intelligence 25 (10) (2003) 1337–1342.
[30] IEEE international workshop on performance evaluation of tracking and surveillance (2000).
URL ftp://ftp.pets.rdg.ac.uk/pub/PETS2000/
[31] IEEE international workshop on performance evaluation of tracking and surveillance (2001).
URL ftp://ftp.pets.rdg.ac.uk/pub/PETS2001/
[32] IEEE international workshop on performance evaluation of tracking and surveillance (2006).
URL http://pets2006.net/data.html

寫在最後的話

    本文所述的方法可說是畫素級背景建模方式的巔峰之作。在接下來的時間裡,我將嘗試按照我自己的理解來實現文中的演算法,對於論文中沒有講述透徹的部分,我也試圖完善它。敬請期待~~

    在翻譯文章的過程中得到了趙德斌博士的指導,在此表示感謝。

    同時,也感謝您耐心看完,希望對您有所幫助。

    欲知後事如何,且聽下回分解。

網頁中的文字編輯器不方便寫公式,文中的公式恐怕很難看清楚,建議您下載本文的WORD文件