懶人包重點:
・由生成式 AI 驅動的 GVC 影片壓縮技術,號稱能將 1GB 影片壓縮至 200KB(0.02% 壓縮率),徹底顛覆傳統壓縮方式。
・核心機制是將傳統編解碼器替換為多模態 AI 模型,透過「生成」重建影像,引發了「究竟是還原真實還是 AI 創作」的熱烈討論。
當生成式 AI 所產生的圖片甚至是影片,都已經達到了「以 AI 亂真」的境界的時候。你有沒有想過,未來也許所謂的真實影片紀錄,也會參雜部分由 AI 生成的成分在其中?
最近,一個號稱可以讓影片壓縮率達到驚人 0.02% 的新技術。也就是餵給它 1GB 的影片,將只需要 200KB 的資料量即可傳輸到另一端呈現影片的內容。然而這樣誇張的壓縮率(而且他們的目標其實是 0.01%)的達成方式,卻引發了極大的討論。
這項由中國電信人工智慧研究院(TeleAI)所發表的 Generative Video Compression(縮寫為 GVC)技術論文,許多報導是將它分類為影片壓縮技術。不過聰明的各位看到了「Generative」這個關鍵字,應該都能猜到,它的技術涉及到了 AI 生成的技術。
而之所以可以達到這麼威的壓縮率,是因為 GVC 跳脫了傳統壓縮技術偏向於搬運資料的思維,將所謂的編碼器(Encoder)與解碼器(Decoder)都換成了多模態 AI 模型。
可以視為在壓縮影片到解壓縮到看到成果的兩端,都分別放了特別為轉述/轉譯影像內容所預訓練的大模型,藉此大幅度的「壓縮」大量的資料量。最終看到的結果,就是那超強大的 0.02% 壓縮率表現。
GVC 影片壓縮技術「省略」了什麼?真的可以說是「還原」了嗎?
有報導以電話兩端有兩位深刻了解繪畫技術的專家(畫家)在彼此持續通話溝通並在另一端畫出影像,來形容 GVC 的技術原理。
也因為如此,引發了許多人對於「這樣算是還原還是 AI 創作?」的疑問。
特別是研究團隊 GVC 設計的應用方向之一,設定在了訊號極差(最低僅需 0.005 bpp)的災害現場或者是遠程監控與探測上面。
總覺得,如果是一些關鍵特徵情況,在透過 AI 一層層的轉譯與還原之後,最終出現在遠端人員「眼中」的影像內容,會不會嚴重失準導致重大的問題,是目前許多人所關注的問題。(說得更直白一點,就是你看的O片時會不會整個「走精」掉?從封面照根本認不出主角這樣)
不過你可以透過前面的兩張比較圖看到,由 GVC 壓縮之後傳輸出去的影片表現 - 乍看之下很還原,但開發團隊也不避諱將不同之處放大給大家看這套技術可能會有的失真問題。
但如果就官方對比傳統影片壓縮技術在艱困網路環境下傳輸時丟失的程度的比較圖來看(上圖),卻又覺得比起糊到不行的傳統方式,GVC 確實有些東西 - 雖然感覺上像是透過 AI 增強細節之後成果。
並非憑空生成,仍保有一定紀實性
筆者在稍微了解 GVC 中間的技術後,個人認為大部分的疑慮點是在於有沒有(或是有多少)「真實影像」被保留下來的這件事情上。
事實上,個人認為「畫家轉譯」的這個形容算是有些不足。因為這項技術除了「通話(文字)」外,其實仍有實際影像(當然是有壓縮過)被傳輸 - 並不是大家擔心的完全憑空由生成影片。
GVC 的技術在前端的解析步驟時,會將需要壓縮的影像拆解為三個主要的部分:
・壓縮關鍵影格(compressed keyframes)
・高階描述子(high-level descriptors)
・低階連續特徵(low-level continuous features)
後兩者,是之所以能達到這麼大壓縮率的關鍵 - 因為都被大模型解析成了加入空間與連續動態的影像描述資訊。而壓縮關鍵影格(compressed keyframes)就如其名,仍然會把必要的影像資訊紀錄並傳輸到另一端的 Decoder 進行解碼。
沒有錯,還是會有影像被傳輸出去。並不是完全憑描述來生成影像而已。
相對於傳統的影像壓縮技術,主要是針對「畫素」進行處理(看後續是要補格數還是細節等資訊)。GVC 則是可透過 Neural Encoder 依據模型對於影像的解析力(可以說是解像力?)以及 diffusion 模型為基礎的 Generative Video Decoder 再生成為影片的效率,來調整壓縮的比例。
簡言之,就是這些模型的能耐有多高,實際傳輸的關鍵影格影像內容,就能丟掉多少細節 - 從這樣的角度看,GVC 確實是壓縮技術無誤。
高壓縮率的等價交換:計算換頻寬
由於需要用「計算換頻寬(Trading Computation for Bandwidth)」的關係,所以也會有推理成本很高的代價,而需要考量到效能效率的問題。
依據論文裡面提到在消費級顯卡(RTX 4090)的條件配合目前的模型規模,在處理 480p 時可以達到延遲約 2 秒還算可接受的即時傳輸效果 - 其實蠻強的,畢竟要即時「解析」+「生成」啊。至於在往上到 720p 甚至是 1080p 時就會每況愈下。
但如果用到的是 NVIDIA H200 這樣的專業級顯卡的話,就是另外一個故事了 - 延遲低超多。
結語:跳脫框架的「壓縮」方式
不得不說,像是 GVC 這樣的「壓縮」方式一被提出,確實會有很多資訊還算不算真實,或還能不能信任的這些爭論。
但就目前像是 Google 與 OpenAI 的影片生成技術所產生的影片以假亂真的程度,基本上大部分人可能都很難馬上察覺問題。另一方面來說,市面上也早就有很多影像增強的技術,在嘗試將過往被認為解析度太低或是殘破不堪的影像,復原成可以參考的史實資料。
就這樣的角度出發,假若透過生成來快速傳輸的技術未來能夠在壓縮程度找到一個足夠真實、AI 比較不會出錯或發生嚴重失誤的平衡點的話。個人認為這樣的技術應該發揮出很棒的應用方向。
--
圖片來源:TeleAI
引用來源:arXiv via HKEPC
--
延伸閱讀:
AI 激發行動力,台灣學生開發團隊刷新 MAIC 大獎新紀錄
![1GB壓到只剩200KB? 最新GVC技術以 AI 徹底顛覆傳統影片壓縮方式5567]()
--
GVC 壓縮技術, 生成式 AI, AI 科技
本文章最後由 rOsS.W 於 2026-1-16 13:16 編輯
|