這次LiveVideoStackCon 2020 北京站,我們邀請(qǐng)到了曾任職于Apple、Facebook和Zoom的音視頻算法工程師郝一亞。一亞博士畢業(yè)于美國(guó)德州大學(xué)達(dá)拉斯分校,在校時(shí)是Statistical Signal Processing Research Lab的研究助理,專注于在助聽(tīng)器上的語(yǔ)音數(shù)字信號(hào)處理算法。
2019年年底,郝一亞加入網(wǎng)易云信,研究范圍包括傳統(tǒng)信號(hào)處理算法和基于AI的算法。除了是人們口中的“程序員”,郝一亞還擁有街舞老師、兵乓球國(guó)家二級(jí)運(yùn)動(dòng)員等多重身份,參加過(guò)頂級(jí)歌手的世界巡演.......而當(dāng)一名在美博士從灣區(qū)來(lái)到內(nèi)地,他的生活又發(fā)生了怎樣的變化?
用郝一亞自己的話來(lái)說(shuō),就是“系統(tǒng)還是收斂穩(wěn)定的”。
以下內(nèi)容由LiveVideoStack與郝一亞的采訪整理而成LiveVideoStack:在您眾多的身份中,您更享受哪一個(gè)“自己”,對(duì)哪一個(gè)“自己”最滿意?開(kāi)發(fā)者/程序員在這眾多的標(biāo)簽中處于一個(gè)什么樣的位置?郝一亞:最享受的可能是作為Dancer/Choreographer的身份,最滿意的應(yīng)該是Acoustic Engineer這個(gè)身份,因?yàn)樽约耗軓暮芷匠5穆曇糁新?tīng)出更多的信息,比如聲音有沒(méi)有distortion、每個(gè)人的pitch基頻、環(huán)境底噪的分貝數(shù)等等。開(kāi)發(fā)者/程序員應(yīng)該相當(dāng)于我實(shí)現(xiàn)自己算法的一個(gè)途徑,要將自己聽(tīng)到的和提出的算法應(yīng)用于實(shí)際,都需要自己動(dòng)手去寫出來(lái)。LiveVideoStack:在美國(guó)求學(xué)、工作的過(guò)程中,您最開(kāi)心的時(shí)刻有哪些?郝一亞:應(yīng)該是博士答辯完成,老板對(duì)我說(shuō)“Congratulations, Dr. Hao”的時(shí)候,還有求婚成功的時(shí)候。LiveVideoStack:加入網(wǎng)易云信后,你的生活發(fā)生了哪些變化,喜和憂分別是什么?郝一亞:其實(shí)沒(méi)什么大憂,硬要說(shuō)的話可能是上班時(shí)間增加導(dǎo)致家庭和個(gè)人時(shí)間太少。喜的方面其實(shí)挺多的,之前沒(méi)有在中國(guó)的公司待過(guò),本來(lái)是做好了應(yīng)對(duì)“壞情況”的心理準(zhǔn)備,但實(shí)際工作中,團(tuán)隊(duì)氛圍、專業(yè)程度、自己的適應(yīng)狀態(tài)都達(dá)到了一個(gè)很好的正反饋系統(tǒng)中,用DSP的術(shù)語(yǔ)來(lái)說(shuō)該系統(tǒng)還是收斂穩(wěn)定的。音頻算法的迭代不是一個(gè)短平快項(xiàng)目,需要耐心的打磨和積累。而網(wǎng)易就是這樣的一個(gè)企業(yè),以匠心致創(chuàng)新,這就是我選擇網(wǎng)易云信的最大原因。LiveVideoStack:云信每周四的程序員分享進(jìn)展如何,最近又分享了哪些有意思的話題?郝一亞:我覺(jué)得周四的分享特別好,分享內(nèi)容有廣度有深度。我自己印象最深的是音頻組同事講的那次關(guān)于音頻信號(hào)問(wèn)題的分析,現(xiàn)場(chǎng)氣氛很好,大家都在踴躍地討論,而且分享后大家反饋也是說(shuō)了解了很多音頻問(wèn)題表象下的具體原因。雖然分享最后有點(diǎn)像音頻組的“甩鍋大會(huì)”了。LiveVideoStack:在您就職FB、Apple等互聯(lián)網(wǎng)公司期間,遇到過(guò)哪些印象深刻的技術(shù)難題,以及您是如何應(yīng)對(duì)的?郝一亞:當(dāng)時(shí)在Apple的時(shí)候,第一個(gè)落地的算法是結(jié)合一個(gè)新的sensor的一個(gè)音頻算法。當(dāng)時(shí)難度挑戰(zhàn)是相關(guān)的paper很少,很多細(xì)節(jié)只能自己去摸索,我的應(yīng)對(duì)辦法就是兩個(gè)字“加班”。
開(kāi)個(gè)玩笑,是加了幾天班,但關(guān)鍵的策略是沒(méi)有急于求成,而是把sensor在各個(gè)產(chǎn)品下的指標(biāo)都考慮到,測(cè)試好,打好基礎(chǔ),前期工作做得好,制定方案就會(huì)很可行。Apple的音頻實(shí)驗(yàn)室設(shè)備非常齊全,到了“要什么有什么”的境界,為工作提供了很多便利。LiveVideoStack:基于AI的算法產(chǎn)品化這一點(diǎn),您有什么比較欣賞的平臺(tái)或產(chǎn)品嗎?郝一亞:在音頻領(lǐng)域,雖然現(xiàn)在AI音頻算法在產(chǎn)品落地上依然沒(méi)有普及開(kāi),但是Google在近幾年一直是這個(gè)領(lǐng)域的佼佼者,其次Amazon的Lab126在這個(gè)領(lǐng)域的研究也是非常超前的。LiveVideoStack:“將AI算法任務(wù)模塊化”具體是一個(gè)什么概念,有哪些實(shí)際用例?郝一亞:AI算法在實(shí)際應(yīng)用當(dāng)中有很多問(wèn)題,在音視頻算法中,讓AI去處理一個(gè)鏈路很長(zhǎng)的算法問(wèn)題時(shí),Model的效果、泛化能力、計(jì)算復(fù)雜度都很頭疼。如果是沿用傳統(tǒng)的算法,將傳統(tǒng)算法中的一個(gè)適合AI的模塊單獨(dú)拿出來(lái),用訓(xùn)練的Model來(lái)處理,這種方式往往在上述的三個(gè)維度都能有提升。LiveVideoStack:將具體技術(shù)“產(chǎn)品化“的過(guò)程中您遇到過(guò)哪些困難?郝一亞:主要的困難是算法的研究與產(chǎn)品的需求之間往往存在著差距,在云信的算法落地過(guò)程當(dāng)中,穩(wěn)定性和高可用性是我們的首要目標(biāo)。在此基礎(chǔ)上,我們會(huì)不斷地去match產(chǎn)品的需求,分清需求的重要程度,不斷地對(duì)算法的細(xì)節(jié)進(jìn)行調(diào)整。
LiveVideoStack:據(jù)您個(gè)人經(jīng)驗(yàn),中美科技公司將音頻技術(shù)“產(chǎn)品化”的過(guò)程有何不同?郝一亞:其實(shí)中美公司在很多方面都已經(jīng)比較接近了,在音頻技術(shù)“產(chǎn)品化”方面,美國(guó)和國(guó)內(nèi)公司相比,唯一的不同可能在于其音頻技術(shù)產(chǎn)品化的流程比較清晰,音頻相關(guān)的儲(chǔ)備(比如音頻工具、消聲室、技術(shù)積累)比較完善。云信目前也有很多音頻相關(guān)儲(chǔ)備,比如Soundbooth、人工頭等工具,在傳統(tǒng)3A算法和AI算法上都有可觀的技術(shù)積累。LiveVideoStack:就您個(gè)人經(jīng)驗(yàn),國(guó)內(nèi)的公司需要如何快速?gòu)浹a(bǔ)這一點(diǎn)不足;以及國(guó)內(nèi)互聯(lián)網(wǎng)公司又有哪些令你欣賞的優(yōu)勢(shì)呢?郝一亞:首先,這些不足沒(méi)法快速?gòu)浹a(bǔ)。追趕的方式我認(rèn)為還是積累更多相關(guān)的人才,還需要讓更多管理者認(rèn)知到音頻開(kāi)發(fā)和其他開(kāi)發(fā)的不同之處(開(kāi)發(fā)周期長(zhǎng),需要時(shí)間打磨與積累)。我認(rèn)為國(guó)內(nèi)現(xiàn)在最大的優(yōu)勢(shì)在于國(guó)家層面開(kāi)始重視音視頻技術(shù),以及國(guó)內(nèi)的消費(fèi)能力和市場(chǎng),這兩點(diǎn)足以支撐音頻領(lǐng)域的快速積累。LiveVideoStack:您現(xiàn)階段正在解決的問(wèn)題?郝一亞:現(xiàn)在基于AI的音頻算法產(chǎn)品化的過(guò)程中,瓶頸依然是算法的泛化能力和Model復(fù)雜度,我們現(xiàn)在所專注的就是在不影響算法表現(xiàn)的情況下去提高泛化能力、降低計(jì)算量。LiveVideoStack:您下一階段的研發(fā)目標(biāo)?郝一亞:更深入的去“模塊化”傳統(tǒng)的音頻算法,將更多的“小模塊”用AI替代。編輯:Coco Liang
原文標(biāo)題:從舊金山到濱江區(qū),系統(tǒng)依舊收斂穩(wěn)定
文章出處:【微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
-
數(shù)字信號(hào)
+關(guān)注
關(guān)注
2文章
997瀏覽量
48372
原文標(biāo)題:從舊金山到濱江區(qū),系統(tǒng)依舊收斂穩(wěn)定
文章出處:【微信號(hào):livevideostack,微信公眾號(hào):LiveVideoStack】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
無(wú)刷雙饋異步電機(jī)潮流建模和收斂性研究
亞成微智能高邊開(kāi)關(guān)在商用車領(lǐng)域的應(yīng)用

亞川科技 YCS-7000S 樓宇自控系統(tǒng):構(gòu)筑智能樓宇新生態(tài)

亞川科技變配電監(jiān)控系統(tǒng)的優(yōu)勢(shì)

亞川科技變配電監(jiān)控系統(tǒng):電力安全的智慧守護(hù)者

亞川樓宇自控系統(tǒng),打造智慧生活新標(biāo)桿
如何選擇是用銀河麒麟好還是星光麒麟好?

Vivado Design Suite用戶指南: 設(shè)計(jì)分析與收斂技巧

評(píng)論