你講故事,它剪視頻:AI視頻剪輯自動化解放
機器之心報道
參與:張倩、杜偉
視頻剪輯是一項費時費力的工作,需要剪輯者自己去找合適的幀并將其拼接在一起。如果能將這一過程自動化,部分剪輯師可能就不用熬夜剪片子了。來自北航、清華、哈佛大學和以色列赫茲利亞跨學科研究中心的研究者開發了一種全新的視頻剪輯方法,可以通過編輯視頻對應的文本完成鏡頭選取和拼接,生成符合文字描述的連貫視頻。
研究者提出的這一工具名為「-A-」,它可以根據文本來決定選取庫中的哪些鏡頭或場景,以此來組成剪輯者所需的故事情節。該工具對新手非常友好,即使不具備專業的視頻剪輯技巧也能得到高質量的視頻蒙太奇。
研究者還提出了一個全新的視頻剪輯界面,用戶可以直接在文本上進行操作,而無需對視頻幀進行操作。
他們在不同的主題文本和視頻資料庫中進行了測試,并進行了定量評估和用戶研究。結果表明,這一結合了人類和算法能力的智能數字化工具可以在創意創造過程中給予用戶幫助。借助于 -A- 工具,沒有任何視頻剪輯經驗的用戶也可以剪出令人滿意的視頻,有時候剪輯速度甚至比那些使用幀剪輯工具的專業人士還要快。
該團隊準備在本月 17-20 號舉辦的 ACM Asia 大會上展示這一成果。ACM Asia 是一個由國際圖形圖像協會舉辦的電腦圖像和互動技術展覽及會議,是計算機圖形學的頂級國際會議。
研究者表示,「-A-」允許剪輯者創通過簡單地編輯視頻附帶的文本來創建視頻蒙太奇。他們可以添加或刪除文本、移動句子轉換成視頻剪輯操作,如找到相應的鏡頭、剪輯或重置鏡頭等。
剪輯過程分為三個步驟:(1)用戶提供輸入,大部分時候是編輯文本;(2)系統自動搜尋視頻庫中語義匹配的鏡頭;(3)拼接視頻。分割文本和鏡頭之間的視覺-語義匹配是通過級聯關鍵詞匹配和視覺-語義嵌入來實現的,比其他解決方案準確率要高。考慮到時間限制,視頻重組被定義為對鏡頭、攝像機運動和色調等電影技術指標以及用戶指定的電影技術習慣用法( )的混合優化。
「-A- 利用了當前自動視頻理解的先進技術和獨特的用戶界面,可以生成更加自然、簡單的視頻剪輯效果,」赫茲利亞跨學科研究中心的教授 表示。「使用我們的工具,用戶能夠以文本編輯的方式提供輸入。該工具可以從視頻庫中自動搜索語義匹配的候選鏡頭,然后使用優化方法,通過自動裁剪和鏡頭重排來組合視頻蒙太奇。」
現為北航虛擬現實技術與系統國家重點實驗室助理研究員及碩士生導師的汪淼博士說道:「-A- 可以使用戶通過電影技術習慣用法探索每個場景的視覺風格,以此來加快或減緩視頻節奏、增加或減少動作內容等。」
?
此外,當從視頻庫中選取候選鏡頭時,-A- 會兼顧鏡頭的美學效果,自動選擇那些燈光、聚焦良好以及清晰穩定的鏡頭。來自清華大學的胡事民教授說道:「在任何時間點上,用戶都可以借助旁白敘事來渲染視頻和預覽視頻剪輯效果」。
在眾多視頻網站中,「觀看某位明星鏡頭」的選項已經出現一段時間了,最近有關自動剪輯的研究看起來又將自動化提高了一大步。這樣的技術,什么時候會進入實用階段呢?
項目鏈接:
參考鏈接:
:22大領域、127個任務,機器學習 SOTA 研究一網打盡。
聲明:本站所有文章資源內容,如無特殊說明或標注,均為采集網絡資源。如若本站內容侵犯了原著者的合法權益,可聯系本站刪除。