Google Pixel 2(XL)錄影畫質提升背後

NO IMAGE

作者:Chia-Kai Liang, Fuhao Shi

翻譯:楊潔

審校:包研

Pixel和Pixel XL的高質量錄影背後,是Google相機演算法團隊和感測器演算法團隊及相關硬體團隊的功能努力下完成的。Google工程師在撰文對此進行了解析,LiveVideoStack對本文進行了摘譯。點選“閱讀原文”訪問英文原文連結。

目前智慧手機最重要的一個方面就是輕鬆捕捉和分享視訊。基於光學影象穩定(OIS)和電子影象穩定(EIS))的融合穩定視訊技術,使用Pixel 2 和Pixel 2 XL智慧手機,拍攝的視訊比以往更流暢,更清晰。視訊融合穩定技術用最少的偽影提供高度穩定的畫面,目前Pixel 2在DxO的視訊排名中領先(同時也獲得了智慧手機相機的最高綜合評分)。

錄影的一個關鍵原則是保持攝像機的運動平穩。一個穩定的視訊是不受干擾,所以,觀眾可以關注感興趣的主體。但是,使用智慧手機拍攝視訊受許多條件的限制,使得拍攝高質量視訊成為一個重大挑戰:

相機抖動

大多數人手持手機來錄製視訊-從口袋裡拿出手機,錄製視訊,視訊錄製後可立即分享。

然而,這意味著你的視訊和你的手一樣抖動,而且震動很大!此外,如果你是走路或跑步錄製時,攝像機的動作可能使視訊幾乎不能看了。

 

運動模糊

如果相機或拍攝物件在曝光過程中移動,所拍攝的照片或視訊就會顯得模糊。特別是在移動裝置上,即使我們在連續幀之間穩定運動,實際上每個單獨幀中的運動模糊也不容易恢復。由運動模糊引起的一個典型的視訊偽影是清晰度不一致性:視訊可能在模糊和清晰之間快速交替,即使視訊穩定之後,也是非常分散注意力的。

捲簾快門(或果凍效應)

CMOS影象感測器一次收集一行畫素或“掃描線(逐行掃描)”,從頂部到底部掃描需要幾十毫秒的時間。因此,這段時間內任何運動都可能出現失真。這被稱為捲簾快門失真。即使你的手穩定,快速移動時也會出現捲簾快門失真。

聚焦呼吸(呼吸效應)

當視訊中有不同距離的物體時,由於物體在前景中“跳躍”,視角可能會發生顯著變化。結果,會像下面的視訊一樣縮小或擴大,專業人士稱之為“呼吸”。

一個好的穩定系統應該解決這些所有問題:應該視訊看起來清晰,運動平滑,並且校正捲簾快門和聚焦呼吸。

許多專業人員將相機安裝在機械穩定器上以完全隔離手部運動。這些裝置主動感應並補償相機的移動,以消除所有不必要的動作。然而,它們通常是昂貴及繁瑣的;你不會想每天都帶著一個。手機上也有手持萬向支架。然而,它們通常比手機本身大,並且需要在開始錄製之前,必須把手機放在支架上。你需要做的很迅速,以免有趣的瞬間消失。

光學影象穩定(OIS)是抑制抖動偽影的最知名的方法。通常,在具有OIS的移動照相機模組中,鏡頭通過多個彈簧懸掛在模組中間,並使用電磁體在其外殼內移動鏡頭。

鏡頭模組主動感應並以非常高的速度補償抖動運動。由於OIS快速響應運動,可以大大抑制抖動模糊。然而,對糾正運動的範圍是相當有限的(通常大約為1-2度),這是不夠正確的連續視訊幀之間的不必要的動作,或者正確的行走過程中過多的運動模糊。

然而,可校正運動的範圍相當有限(通常在1-2度左右),這不足以糾正連續視訊幀之間的不必要的運動,或者糾正行走過程中過度運動模糊。另外,OIS不能糾正某些型別的運動,如平面旋轉。有時它甚至可以引入“果凍”偽影。

電子穩像(EIS)分析像機運動,濾除不需要的部分,並通過變換每幀合成一個新的視訊。最終的穩定質量取決於這些階段的演算法設計和實現優化。

一般來說,基於軟體的EIS比OIS更靈活,所以它可以糾正更大更多型別的運動。但是,EIS有一些常見的侷限性。首先,為了防止合成幀中的未定義區域,它需要減小視場或解析度。 其次,EIS與OIS或外部穩定器相比,EIS需要計算更多,在手機上資源有限。

製作更好的視訊:融合視訊穩定性

在視訊錄製過程中,OIS和EIS同時啟用,通過融合視訊穩定技術,可解決上面提到的所有問題。我們的解決方案有三個處理階段,如下面的系統圖所示。

 

0?wx_fmt=jpeg

第一個處理階段,運動分析,提取陀螺儀訊號,OIS運動及其他屬性來精確估計像機運動。 然後,運動濾波階段,結合機器學習和訊號處理來預測人們移動相機的意圖。最後,在幀合成階段,建模並移除捲簾快門和聚焦呼吸失真。

藉助視訊融合穩定技術,來自Pixel 2的視訊具有較少的運動模糊,看起來更自然。該解決方案足以在所有視訊模式下執行,例如60fps 或 4K錄製。

運動分析

在運動分析階段,我們使用手機的高速陀螺儀來估計手部運動的旋轉分量(滾動,俯仰和偏航)。通過感知200 Hz的運動,每條掃描線都有密集的運動向量,足以模擬捲簾快門失真。

我們還測量陀螺儀未檢測到的鏡頭運動,包括聚焦調整(z)和OIS高速運動(x和y)。

由於需要很高的時間精度來模擬捲簾快門效應,所以我們仔細優化了系統,以確保CMOS影象感測器,陀螺儀和鏡頭運動讀數之間的時間完美對齊。僅僅幾毫秒的錯位就會引起明顯的抖動效應。

運動濾波

運動濾波階段從運動分析中獲取真實的像機運動,並建立穩定的虛擬攝像機運動。請注意,我們將輸入幀推進佇列以延緩處理。這使我們能夠預測未來的相機運動,利用機器學習來準確地預測使用者的意圖。前向濾波對於OIS或任何機械穩定器來說是不可行的,這些穩定器只能對之前或現在的運動作出反應。我們將在下面討論更多。

幀合成

在最後階段,我們根據真實的和虛擬的相機運動推匯出幀變換方法。為了處理捲簾快門失真,我們對每幀多次變換。將輸入的幀分成一個網格,分別對每部分進行變換。

前向運動濾波

融合視訊穩定的一個關鍵特徵是新的預測濾波演算法。它分析未來的運動,以識別使用者預期的運動模式,並建立一個平滑的虛擬像機運動。向前濾波有多個階段,逐步改進每幀的虛擬相機運動。在第一步中,將高斯濾波應用到過去和未來的真實像機運動中,以獲得平滑的像機運動。

為了進一步提高質量,我們訓練了一個模型,從嘈雜的真實像機運動中提取目標運動。然後,我們根據預測的運動應用附加的過濾器。例如,如果我們預測相機是水平平移的,就會拒絕更多的垂直運動。

實際上,上述過程並不能保證沒有未定義的“壞”區域,當虛擬像機過於穩定及變形幀落在原始視場之外時,就會出現這種情況。我們在接下來的幾幀中預測這個問題的可能性,並調整虛擬像機的運動得到最終結果。

正如我們前面提到的那樣,即使啟用了OIS,有時運動也會過大,導致幀內運動模糊,當EIS進一步應用於相機平滑運動時,運動模糊會導致分散清晰度。

這是EIS解決方案中非常普遍的問題。為了解決這個問題,我們利用人類視覺系統中的“掩蔽”特性。運動模糊通常會使幀沿特定方向模糊,如果所有幀沿著這個方向運動,人眼就不會注意到它。相反,我們的大腦自然的將模糊視為運動的一部分,並將其從我們的感知中遮蔽掉。

有了高頻陀螺儀和OIS訊號,我們可以準確的估計出每一幀的運動模糊。我們可以計算出相機在曝光初始及終止時所指的位置,兩者之間的移動就是運動模糊。之後,我們應用機器學習演算法(訓練一組有運動模糊和沒有運動模糊的影象)將過去和未來幀中的運動模糊對映到我們想要保留的真實像機運動的量,同時使用虛擬的相機移動與真實相機移動進行混合加權。隨著模糊運動的掩蓋,分散清晰度變化大幅下降且相機運動始終保持穩定。

結果

我們已經看到許多很棒的Pixel 2融合視訊穩定的視訊。 融合視訊穩定結合了OIS和EIS的優點,在像機運動平滑和減少運動模糊方面取得了很好的效果,並校正了捲簾快門和聚焦呼吸。藉助Pixel 2和Pixel 2 XL上的融合視訊穩定功能,您不再需要在錄製之前仔細放置手機,在整個錄製過程中牢牢抓住手機,或者隨身攜帶萬向架。
錄製的視訊將始終保持穩定,清晰,並可隨時分享。

0?wx_fmt=png

手機錄影畫質的提升,滿足了大眾隨拍隨分享的需求,也促進了短視訊的興起。其實早在四五年前,短視訊就已經火起來,為何在歷經直播元年後又再度火爆?此前製作短視訊的企業又在做什麼內容?伴隨大逃殺型別遊戲的火熱,短視訊如何與遊戲行業相結合?

LiveVideoStack特邀又拍雲高階產品經理曾令森走進成都,12月2日與您一同分享《短視訊為什麼又火起來了》,此外我們還邀請了騰訊、阿里雲、聲網、即構科技4位大咖講師一同分享遊戲行業音視訊技術的玩法,社交遊戲、手遊、O2O、雲導播……更多精彩等你來發現。

現在報名即享5折優惠,VIP還將獲得技能圖譜以及參與講師晚宴的機會。

0?wx_fmt=jpeg