NO IMAGE

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

這是『下一代編解碼器』系列採訪的第8篇,LiveVideoStack採訪了北京大學資訊工程學院教授王榮剛,暢聊了從熱門編解碼器的比較到4K、短視訊等應用場景,國產AVS2的演進,以及視訊畫質評定。

策劃 / LiveVideoStack

責編 / 包研

LiveVideoStack:請簡要介紹下自己,以及目前主要的工作方向,對哪些技術或領域感興趣?

王榮剛:很高興接受採訪,談談我們對視訊編碼技術的看法和我們團隊的一些相關工作。我叫王榮剛,目前是北京大學資訊工程學院教授,所在實驗室為北京大學數字視訊編解碼技術國家工程實驗室深圳分室。自2002年讀博士開始一直從事視訊編碼和處理方面的科研工作,參與了AVS1,AVS 和AVS2系列標準的制定,主持制定了MPEG網際網路視訊編碼標準Internet Video Coding和IEEE虛擬現實視訊編碼標準Immersive Visual Content Coding草案,領導研發了AVS2視訊編解碼器uAVS2和HEVC/H.265編碼器u265。目前主要工作方向是下一代視訊編碼演算法、虛擬現實視訊合成與高效傳輸。我感興趣的技術領域主要包括視訊編碼、影象處理和虛擬現實等。

LiveVideoStack:什麼樣的編解碼器是一個好的編解碼器?視訊質量、位元速率、演算法複雜度、對資料丟失或錯誤的魯棒性等。

王榮剛:這個問題比較複雜,視訊編解碼器的設計和應用場景密切相關,總體上說是在應用場景給定的約束條件下編碼質量越高越好,這些約束條件可以包括但不限於位元速率要求、計算資源、編碼時延、隨機訪問頻率,通道條件等。

大家最熟知的視訊應用是廣播電視,這種場景的特點是視訊內容本身豐富多樣,場景切換頻繁;傳輸通道是單向的,有完善的容錯機制,傳輸速率相對穩定;使用者的終端一般是大螢幕,對視訊質量要求高;此外,編延時一般不超過3秒,隨機訪問點的間隔不超過1秒;為了滿足直播需求,要求編碼速度至少做到實時。廣電系統在編碼質量評估方面有比較成熟的方案,測試序列多樣,至少會包含複雜運動和頻繁場景切換,編碼質量用主觀評測打分,不是大家熟知的PSNR或SSIM,傳統的專業編碼器廠商做的都是這類廣播級編碼器。

近些年,網際網路視訊應用快速發展,網際網路視訊相對於廣播電視來說對編碼器的約束少一些,例如位元速率不需要恆定,隨機訪問間隔可以到10秒甚至更長;受網路頻寬成本限制,一般目標位元速率偏低(在幾百Kbps到幾Mbps之間);網路傳輸一般採用TCP協議,所以不需要考慮容錯。據我瞭解,國內多數網際網路公司以開源軟體(例如x264,x265)為基礎做些簡單定製,少數公司自主研發視訊編解碼器。

另外一類典型應用是視訊通訊(例如視訊會議、視訊通話),這類應用對編解碼延時和容錯要求較高,場景相對簡單,場景切換較少,對編碼質量的要求沒有廣播電視高,編解碼器和網路傳輸模組耦合度較高,最好的選擇是自己定製編解碼器。

LiveVideoStack:當下對於編解碼器的研發,業界主要的研究方向是什麼?其難點是什麼?有沒有一些典型或您十分看好的應用場景?

王榮剛:目前從應用角度,正處於第二代編碼標準向第三代編碼標準過渡階段,所以研發熱點是基於第三代編碼標準的視訊編解碼器。說到第三代編碼標準,最具代表性的是由ISO/IEC MPEG和ITU-T VCEG聯合制定的HEVC/H.265標準。另外兩個挑戰者是由我國組織制定的AVS2國家標準和由谷歌牽頭制定的AV1(還未正式定稿)標準。關於這三個標準的詳細比較,我們專門寫過一篇文章,大家有興趣進一步瞭解可以關注我們實驗室的微信公眾號:“智媒之音”,文章的題目是《誰將引領新一代視訊編碼標準:HEVC、AVS2和AV1效能對比報告》。總體上這三個標準的編碼效率處在同一水平線上,比第二代標準提升了1倍左右。

開發第三代視訊編碼器的難點在於編碼效率和編碼複雜度的平衡。第三代標準比第二代標準編碼工具的複雜度增加了近一個數量級(10倍左右),而且主要目標應用是超高清視訊(4K/50fps/10bit)。以資料量和編碼工具複雜度推算,用第三代標準實時編碼4K視訊比用第二代標準實時編碼高清視訊對計算資源的需求提升了近200倍。所以在實際應用中,在給定計算資源約束下,很難把所有的編碼工具都用到最優,通常用平行計算結合快速編碼演算法犧牲一定編碼效率換取編碼速度大幅提升。以目前網際網路公司最常用的x265 Medium Preset為例,它的編碼效率比HEVC/H.265參考軟體損失了近30%。當然這樣也為編碼優化留下了創新空間,我們團隊研發的uAVS2和u265是在這方面做的一些嘗試,在和x265 Medium Preset類似的編碼速度條件下,編碼效率比x265高出近20%。

我個人比較看好的場景之一是超高清視訊應用,目前的視訊服務質量距離人眼的視覺極限還有很大差距,無論是從解析度、幀率、色域、動態範圍和視野範圍等維度。最近國家廣電總局發文推動基於AVS2標準的全4K視訊應用落地,相當於把4K影院體驗搬到家,對於家庭視訊服務體驗的提升是革命性的。全4K視訊的內涵是不低於4K解析度、50fps幀率、10位元位深、10000倍以上的動態範圍和BT.2020色域範圍支援。即使用第三代標準壓縮,視訊位元速率在不低於30Mbps的條件下,使用者才不易覺察相對於視訊源的質量失真。這個場景要落地對視訊編碼器的挑戰非常大,我們測試了AVS2參考軟體,如果要滿足全4K視訊實時編碼需求,至少要加速3萬倍! 在這麼大加速比條件下,壓縮效率還要達到上一代標準的2倍,難度可想而知。我們團隊在這方面也做了一些探索,經過2年多努力研發的編碼核心uAVS2-4K在技術上滿足了全4K視訊實時編碼需求。伴隨著廣東、杭州、湖南等地方政府和央視的大力推動,相信新的一年會有一批全4K視訊服務落地。

另外一個我個人比較喜歡的應用場景是網際網路短視訊服務,這個場景推動的是資訊消費方式變化。以我自己為例,近一年朋友圈看的越來越少,在今日頭條和快手等短視訊應用上停留的時間越來越長。文字看的越來越少、影象和視訊看的越來越多。仔細想想,可能主要原因是看文字太累了,看影象和短視訊更輕鬆。這類應用的特點內容數量龐大、粘性高,看似不起眼、不知不覺會消耗大量流量。從視訊編碼技術角度,這類應用對新技術的接受度最高,不像廣播電視需要複雜的上下游產業鏈和硬體支援。由於單個節目資料量小,終端只需要軟解碼,頭端和終端完全掌握在服務商手中,可以自己定製,能自編自解就好,甚至不需要標準。有新技術出來,很快可以落地,技術迭代迅速。我們去年幫助某大型網際網路公司定製了一套軟體編解碼器,針對影象和短視訊應用場景可以節約50%以上的頻寬。


LiveVideoStack:大家已經開始研究H.266、AV1以及國產的AVS2,他有哪些特點?各自的優勢應用場景是什麼?

王榮剛:準確的講,這三個標準不是一個時代的。關於AV1和AVS2我剛才已經說過,屬於第三代編碼標準。AVS2已經發布,AV1即將釋出,大家在這兩個標準上做新的編碼工具沒有機會啦,主要還是做編碼工具優化。 H.266(MPEG官方的說法應該叫FVC: Future Video Coding)屬於第四代編碼標準,目前剛剛開始啟動技術提案的徵集,計劃2020年定稿,目標是編碼效率比第三代標準再提升一倍。大家要做新編碼工具,FVC是適合的平臺。此外,據我瞭解,AVS標準工作組最近也啟動了AVS3標準的制定工作,目標效能和FVC類似,會議資訊參見:http://www.avs.org.cn。

從應用場景上,HEVC, AVS2和AV1等第三代標準很清晰,主要面向超高清視訊應用。但FVC和AVS3等第四代還沒有那麼清晰,基本上在上一代應用場景上進一步提升編碼效率,一點新變化是虛擬現實視訊對解析度和幀率提出更高需求,例如做到8K、90fps以上,但這是不是會成為主流應用還需要時間驗證。

LiveVideoStack:在做編解碼器的開發或優化時,會考慮相關專利及其產生的費用成本嗎?

王榮剛:國家越來越重視智慧財產權保護,國內的公司業務越來越國際化,專利授權成本是使用視訊編碼標準研發編解碼器無法迴避的一個問題。收專利費對促進企業投入核心技術研發、促進編碼技術進步有正面作用,但如果被濫用又會制約標準應用。國際標準在制定過程考慮的只是技術因素、不管授權成本,給“專利流氓”留下投機機會。目前在國際上討論比較熱的是HEVC/H.265的高額專利授權費用問題。已經有三個針對H.265/HEVC的專利池,除了老牌的MPEG LA外,還有HEVC Advance和Velos Media發起的專利池。此外,Technicolor公司獨立收取授權費用。MPEG LA和HEVC Advance公佈了收費政策:MPEG LA的授權封頂年費從H.264的500萬美元提升到H.265的2500萬美元,HEVC Advance除了收裝置廠商的封頂年費4000萬美元以外,還收取內容服務商500萬美元的封頂年費。Velos Media和Technicolor還遲遲未公佈收費政策,讓HEVC專利授權費成了一個“無底洞“。國內一些公司在大力宣傳他們使用HEVC/H.265標準,能不能承受鉅額專利費用,我挺替他們捏把汗的。

AV1是在這個背景下誕生的,目標是免專利費,目前主要的技術貢獻方是谷歌,國際上很多大公司例如微軟、亞馬遜、思科、英特爾和蘋果都加入了AV1陣營,也一定程度上反應了大家對HEVC/H.265收費政策的擔憂,當然AV1能否完全規避第三方技術專利還需要時間檢驗。

AVS專利收費政策走了一條中間路線:只對裝置商收取少量專利費用,不對內容服務商收費。AVS1和AVS 採取“AVS專利池”統一許可模式,每個編解碼器只象徵性得收取1元人民幣專利費,不對內容收費;在AVS工作組成立之初就制定了規則:凡是向AVS工作組提交技術和提案的單位都需要對其專利許可意向做出承諾,允許免費使用者加入“AVS專利池”。這一機制解決了國際標準制定時缺乏對技術許可政策的約束,造成專利授權成本失控的弊端。AVS2雖然暫未出臺正式的專利許可政策,但根據AVS專利池管理委員會出臺的《關於AVS2專利池許可的建議性規定》,AVS2的專利授權將沿用AVS1的統一許可模式,只對裝置象徵性收費,不對內容收費。特別的,對網際網路軟體服務免收專利費。

LiveVideoStack:普遍認為,硬體編解碼器的畫質沒有軟體編解碼器的效果好。有沒有一種能將硬體編解碼器的海量處理能力與高畫質結合起來的解決方案?

王榮剛:我覺得可能是應用場景不同給大家的錯覺。硬體編碼器一般的應用在消費類攝像頭上,這類裝置的特點是量大、但要求很低的硬體成本,計算資源很有限,自然會限制硬體編碼器的編碼質量。軟體編碼器一般用在伺服器端,有很強大的計算資源做後盾,自然編碼質量更高。

對於手機視訊這類應用場景,一個原因是智慧手機通用處理能力越來越強,軟體編碼器可以擁有的計算能力超過了專用硬體,另一個原因是軟體編碼器更新比硬體容易,編碼技術迭代快。硬體廠商面對的一個現實是隨著終端通用計算能力增強,視訊處理越來越軟體化。當然相比於軟體編碼,硬體編碼還是有一定的功耗優勢。

對於專用視訊編碼器,一個可行方案做軟硬體協同設計。即將反覆呼叫的計算複雜度高的模組抽象出來,例如運動估計、變換、熵編碼等做成專有硬體,將編碼排程演算法做成軟體。

LiveVideoStack:FPGA/ASIC做編解碼的前景怎麼樣?

王榮剛:前景一直都很好呀,華為海思的編碼晶片賣了幾億片啦。

LiveVideoStack:設計一個硬體編解碼器,與設計軟體編解碼器有何不同?其挑戰包括哪些?

王榮剛:硬體編碼器的主要設計難度在於控制成本,在給定的資源約束下設計,自然要考慮一定程度的效能損失。軟體編碼器相對約束會少一些。二者的共同挑戰是如何在給定具體的應用場景約束條件下,提升編碼效率。

LiveVideoStack:相對於位元速率、解析度等硬指標,畫質評定,並不能完全參考客觀評測資料,主觀評定也很重要。包括PSNR、SSIM以及Netflix的VMAF等許多評定標準,在實際的應用場景中,該如何選擇最佳的畫質評定體系?

王榮剛:這是很好但很難的問題。說到底視訊是給人看的,所以視訊編碼的目標應該是同位元速率條件下主觀質量最優。視訊質量評價是一個很大的研究方向,我對這方面的研究較少,談不了太深,簡單說一下我對這個方面的一點初淺認識。關於人工的主觀質量的度量, ITU-R規定了比較完善的測試規範(例如BT.1788),可以在網上查到。MPEG在做新標準基礎平臺選擇的時候,要求候選編碼器統一做主觀質量評測。如果希望編碼器自主優化主觀質量,就得找到用客觀指標自動度量主觀質量方法,這是個很難的問題。

SSIM,VMAF和weighted-PSNR以及它們的各種變種都是在這方面的一些嘗試,可惜到目前為止還沒有找到理想的評價指標,先後有很多研究人員掉進這個“坑”裡,無法自拔。就我們之前的一點經驗看:在評價靜態影象主觀質量失真方面,SSIM比PSNR有一些優勢,在視訊方面優勢不明顯。

目前作為視訊編碼器的使用者,評價編碼質量,靠譜的還是人工評分。我瞭解到的廣電系統對編碼器主觀評測大概是這樣做的,選擇或製作一些典型的和極限的測試序列(這點很關鍵),請主觀質量評測專家按照測試規範打主觀分,主觀質量評測專家都是千錘百煉啦,很容易看出視訊失真,據說能看出24fps和25fps的區別來。如果主觀分看不出明顯差別,有條件的再用PQA測一遍, PQA也是將多個指標綜合在一起給個主觀分。但專門做質量評價研究的專家認為PQA還很不完善。其他的應用場景我相信都有自己的一套主客觀評價體系,因為我們不直接做服務,就不班門弄斧啦。

LiveVideoStack:“利用人眼對背景不敏感的原理,降低背景部分的位元速率,從而實現降低視訊位元速率,但主觀上不容易覺察”是不是也在畫質評定的研究領域?

王榮剛:從你對問題的描述看,我的理解是利用人眼的視覺冗餘特性,儘量節省頻寬。關於視覺冗餘,JND(Just noticeable difference)有比較完善的理論,JND的閾值和視訊紋理、亮度和運動複雜度等內容特性相關。基本的假設是如果通過降低目標位元速率,對編碼質量的損失能夠控制在JND閾值範圍內,人眼就覺察不出主觀質量下降。

LiveVideoStack:畫質評定的未來有哪些趨勢?

王榮剛:畫質評定是一個非常重要的研究主題,我個人認為大資料 人工智慧會對給畫質評定的研究帶來新的思路,也許我們需要招個博士生做做這個有趣的題目啦。

LiveVideoStack:對於應屆生或從其他研發領域轉行學習編解碼、多媒體開發的技術人,有哪些建議?

王榮剛:由簡入繁、由淺入深,多動手實驗,對編碼工具知其所以然。我除了做科研外,很多精力是放在教學上。我講視訊編碼方向的課程有近一半的時間是講編碼原理,另一半時間講編碼標準:從最簡單的H.261講起,一直講到FVC,讓學生對編碼技術的發展脈絡有清晰的認識。此外,開源軟體會對視訊編碼技術學習有很大幫助,我向大家重點推薦的兩個視訊編碼方面的優秀開源軟體:FFMPEG和x264。

LiveVideoStack:能否推薦一些系統學習編解碼、多媒體開發的圖書、資料?

王榮剛:我推薦以下幾本書作為參考學習資料:

1)《視訊編解碼技術原理》,高文、趙德斌、馬思偉著,科學出版社,2010.11

2)《Video Codec Design》, Iain E. G. Richardson, John Wiley & Sons, Ltd, 2002

3)《Video Processing and Communications》, Y. Wang, J. Ostermann, Y. Zhang, Prentice-Hall, 2002. 

LiveVideoStack 2018年春季招聘

LiveVideoStack是專注在音視訊、多媒體開發的技術社群,通過傳播最新技術探索與應用實踐,幫助技術人員成長,解決企業應用場景中的技術難題。如果你有意為音視訊、多媒體開發領域發展做出貢獻,歡迎成為LiveVideoStack的一員。我們正在招募商務助理,高階編輯,策劃編輯,課程經理。

通過job@livevideostack.com聯絡,或在LiveVideoStack公眾號回覆『商務助理』,『高階編輯』,『策劃編輯』,『課程經理』瞭解詳情。