《麻省理工學(xué)院技術(shù)評論》雜志于8月19日揭曉了本年度全球35位35歲以下的杰出青年創(chuàng)新人物(簡稱MIT TR35),微軟亞洲研究院的項目研究主管華先勝獲得了此項殊榮,
麻省理工學(xué)院:08年度全球35位35歲以下的杰出青年創(chuàng)新人物
。這一獎項是麻省理工學(xué)院為表彰青年創(chuàng)新人物而設(shè)立的固定評選制度,自1999年以來每年公布一次,對象是全球范圍富有革新精神的、35歲以下的技術(shù)研究者和企業(yè)家。在微軟亞洲研究院的歷史上,曾經(jīng)還有兩位女性研究員張黔、鄭海濤分別在2004、2005年獲得過這一稱號。
視頻搜索上的創(chuàng)新
華先勝及研究小組這些年來在基于內(nèi)容的視頻分析和搜索方面所做出的突破性貢獻,使他贏得了評委會專家們的一致青睞和肯定:
“有效的基于內(nèi)容的視頻搜索仍然還有很多困難沒有解決。微軟研究員華先勝希望通過自動識別圖像和視頻中物體、場景、事件和其他語義特征來攻克這個壁壘。
華先勝博士用機器學(xué)習(xí)的技術(shù)和標注的視頻數(shù)據(jù)訓(xùn)練計算機來對新的視頻進行分類。他和他帶領(lǐng)的研究小組在近些年提出了很多學(xué)習(xí)方法來實現(xiàn)這一目標。他的最新的系統(tǒng)充分利用了多個語義詞之間的相關(guān)性,并且不僅僅依賴于初始的訓(xùn)練數(shù)據(jù),還充分利用互聯(lián)網(wǎng)上用戶主動或被動產(chǎn)生的標注和相關(guān)信息。這些用戶信息可以通過在線游戲、付費標注、分析一般用戶行為等方式獲取。
這個新的視頻分析系統(tǒng)無縫地集成了在線學(xué)習(xí)、主動學(xué)習(xí)和多語義詞(多標簽)學(xué)習(xí)的技術(shù)。系統(tǒng)會利用隨時收集的新的信息更新分類模型,以達到越來越準確的標注。這種“在線主動學(xué)習(xí)”不僅標注更為準確,而且速度比以前的系統(tǒng)快得多。而且,利用語義詞之間的相關(guān)性使得系統(tǒng)能夠處理新的語義詞。華相信增加語義詞能顯著提高搜索的相關(guān)性,使得搜索結(jié)果更接近用戶的意圖。這些技術(shù)對圖像搜索也適用。華先勝及其小組的一些相關(guān)技術(shù)已經(jīng)或者正在轉(zhuǎn)化到微軟視頻搜索引擎中。”
在微軟的研究成果
華先勝在微軟亞洲研究院工作的七年中,主要從事視頻內(nèi)容分析,互聯(lián)網(wǎng)和桌面視頻搜索,多媒體管理、編輯、檢索、共享和廣告等方面的研究工作,共發(fā)表了130余篇國際期刊與會議論文,并擁有30多項專利。這些研究成果也有許多已經(jīng)轉(zhuǎn)化到微軟產(chǎn)品中,其中包括:
AutoMovie: 自動電影(AutoMovie)是Windows Movie Maker 的一個“五星級”功能。它是家庭錄像編輯的“一鍵式”解決方案。自動電影從原始家庭錄像中選擇重要的和有代表性的片斷,并將這些片斷連成一段視頻,而且使連成的視頻與用戶指定的伴奏音樂的節(jié)奏和節(jié)拍吻合,
管理資料
《麻省理工學(xué)院:08年度全球35位35歲以下的杰出青年創(chuàng)新人物》(http://www.msguai.com)。其中的關(guān)鍵技術(shù)是視頻分割、視頻摘要、音樂節(jié)拍和節(jié)奏檢測,以及視頻和音樂的匹配。自動電影能使對視頻編緝知之甚少的用戶能夠快速編輯很吸引人的家庭錄像。智能視頻縮略圖:智能視頻縮略圖(包括靜態(tài)縮略圖和動態(tài)縮略圖)是一種高度提升用戶瀏覽視頻效率和體驗的視頻呈現(xiàn)技術(shù)。它已經(jīng)被廣泛應(yīng)用在微軟視頻搜索,Windows XP媒體中心,Windows Vista和MSN Video中。靜態(tài)縮略圖是一幀高視覺質(zhì)量和有內(nèi)容代表性的圖像,使得用戶通過一幀圖像能大致知道視頻的可能的主題。動態(tài)縮略圖是一段視頻摘要,由一組高質(zhì)量和高代表性的視頻片斷組成。動態(tài)縮略圖使得用戶在很短的時間內(nèi)能大致了解原始視頻的主要內(nèi)容。
華先勝目前的主要研究課題是基于內(nèi)容的視頻搜索和多媒體廣告,其中一些技術(shù)正在進行相關(guān)產(chǎn)品轉(zhuǎn)化。其帶領(lǐng)的小組因在這些領(lǐng)域的研究,在2007和2008年,分別有5篇長論文入選ACM世界多媒體大會,約占每年總論文數(shù)的9%。在2008年還有5篇論文發(fā)表在CVPR會議上。這些研究工作主要包括:
視頻標注:視頻標注是實現(xiàn)基于內(nèi)容視頻搜索的有效方案。與傳統(tǒng)基于內(nèi)容的視頻檢索不同,視頻標注試圖將視頻視覺信息轉(zhuǎn)換成文字,然后通過文字索引和排序的方法實現(xiàn)視頻搜索。對每一個獲得的視頻,視頻標注系統(tǒng)會對視頻進行分類,針對每一個類別,定義一些常見的語義概念(關(guān)鍵詞),例如人物,場景和事件。然后通過建立統(tǒng)計模型,自動對視頻中的這些概念進行檢測和識別。起初,華先勝和小組成員們從半監(jiān)督學(xué)習(xí)和一般主動學(xué)習(xí)的角度解決問題,后來又引入多模式,多實例,多層次,多標簽等思想,到最近的多語義詞在線主動學(xué)習(xí)以及對互聯(lián)網(wǎng)大規(guī)模數(shù)據(jù)和用戶的利用,有望解決大規(guī)模數(shù)據(jù)和大規(guī)模語義詞帶來的計算和準確率方面的瓶頸。2007年,該小組一篇視頻和圖像標注方面的論文獲ACM多媒體大會最佳該會議論文獎。
視頻搜索排序:對與查詢次相關(guān)的視頻進行相關(guān)性排序是視頻搜索的另一重要研究課題;趦(nèi)容的排序可以利用內(nèi)容分析,例如質(zhì)量評估,視頻標注等與文本信息一起進行排序,也可以利用視覺信息對基于文本的視頻搜索排序進行重排。
視頻搜索結(jié)果呈現(xiàn):因為視頻是時間序列,用戶需要持續(xù)觀看一段時間才能了解視頻的內(nèi)容。視頻搜索結(jié)果呈現(xiàn)可以幫助用戶快速了解視頻搜索結(jié)果的內(nèi)容,包括靜態(tài)縮略圖,視頻剪輯,列表呈現(xiàn),可伸縮呈現(xiàn),以及電影膠片式的視頻播放器。近來,華先勝及小組研發(fā)的一種新的視頻呈現(xiàn)方式,視頻拼貼,獲得了2007年ACM世界多媒體大會最佳演示獎。視頻拼貼是一種緊湊描述視頻的方法,它使用一幅自動合成的圖像來摘要描述視頻的主要內(nèi)容。對于任一視頻,視頻拼貼算法選擇最有內(nèi)容代表性和高視覺質(zhì)量的一組視頻幀,并抽取這些幀圖像中的重要區(qū)域,然后將這些區(qū)域無縫地拼接在一個指定的畫板上。視頻拼貼可以作為視頻搜索引擎搜索結(jié)果的摘要描述,用戶通過瀏覽搜索結(jié)果的拼貼圖,可以快速了解搜索結(jié)果的內(nèi)容,進而快速判斷是否是用戶想找的視頻。
多媒體廣告:基于內(nèi)容的視頻和圖像廣告技術(shù)利用視頻和圖像分析技術(shù),尋找視頻和圖像中的最佳廣告插入點,并插入最佳相關(guān)性的視頻、圖像或文字廣告。這項技術(shù)使得視頻和圖像中的廣告更容易被用戶接受并更能獲得用戶的關(guān)注。