跳到主要內容

AI趨勢周報第205期:語音版DALL-E!微軟文字轉語音AI給3秒樣本就能準確生成


微軟打造文字生成語音模型VALL-E,只要輸入目標文字和3秒目標聲音,模型就能產出高相似度的目標語音,就像是語音版的DALL-E一樣。


圖片來源: 

微軟


重點新聞(1230~0105)


微軟     VALL-E     文字轉語音  


語音版DALL-E!微軟文字轉語音AI給3秒樣本就能準確生成


微軟近日發表一套,可根據文字輸入和3秒的語音樣本,來合成、產出目標語音,就像是OpenAI的文字轉圖片模型DALL-E一樣。微軟表示,他們用現成神經音檔編解碼模型中的離散碼,來訓練VALL-E這套神經編解碼器語言模型,把文字轉語音視為條件式語言建模任務,而不是像一般研究,視為連續性的訊號迴歸任務。


在預訓練階段,團隊將文字轉語音的訓練資料,擴充到6萬小時的英語語音,是現有系統的幾百倍。VALL-E的工作流程是音素→離散碼→波形,先根據文字輸入和3秒語音提示(也就是想聽到的目標聲音),來產出與文字和目標聲音相應的離散音檔編解碼。


微軟測試發現,VALL-E在語音自然度和相似度部分,表現比現有SOTA文字轉語音模型要好,而且還能保有語音提示的情緒與聲音環境。團隊指出,VALL-E可直接用於各種語音合成應用,如零樣本文字轉語音、語音編輯,以及搭配GPT-3等生成式AI模型,來生成更多內容。



  大型模型     BigScience     PETALS  


在家也能跑千億參數模型!BigScience開源PETALS分散式AI專案


對語言模型來說,參數越多、模型表現越好,開發者也只需微調大型預訓練模型,就能得到不錯的預測結果。不過,BLOOM、PaLM、GPT等這類大型語言模型,即便開源,還是會耗費大量運算資源,雖然目前有2種方法來解決該問題,如RAM卸載和託管API,但前者對交互推論來說太慢,後者則不夠靈活。


於是,由世界各地研究員組成的開源研究專案BigScience,日前開發一套系統PETALS,可在受信任的的條件下,集各使用者之力,來共同微調、推論千億參數的大模型。也就是說,每個使用者只需要載入一小部分的模型,就能和其他使用者一起協作,來共同執行模型推論和微調,就像是BT原理一樣。


團隊測試發現,PETALS比在單一系統的RAM卸載方法,還要快上許多倍,在消費型GPU上推論1,760億參數的BLOOM模型,完成1個token所需時間近1秒。透過平行推論,每秒則能完成數百個token。而且,有別於大多數的推論API,PETALS還能顯示模型隱藏狀態,讓使用者可用有效的微調方法,來訓練、分享客製模型的外掛。不過,在PETALS初始階段,使用者可能因安全、隱私考量,協作進展可能較慢,因此BigScience推出BLOOM點數,來獎勵貢獻GPU資源的使用者。



  百度研究院     大模型     產業化  


百度研究院預測2023年:大模型將產業化


百度研究院日前發布科技趨勢預測,直言大型模型在2023年將產業化發展,用於更廣泛的產業中。百度研究院指出,現今的AI不斷朝跨任務、跨模態(資料類型)發展,且隨著底層大模型技術的成熟,以及為特定產業發展的AI基礎建設,這種產業型的大模型,已漸漸在航太、金融、能源等領域應用,形成「AI+產業」的發展結構。百度認為,大模型產業化將催生產業大模型生態,實現普惠AI。


此外,百度研究院也預測,2023年的新型AI基礎設施需求將增長、更多產業講過應用AI機器人、AI將進入更多科學領域,以及隨著雲原生技術的成熟,將催生更多量子軟硬體合一的解決方案。此外,可解釋AI技術和科技永續發展,也在百度研究院預測的科技趨勢中。


  Nvidia    機器人訓練       元宇宙  


讓機器人更靈活!Nvidia更新模擬訓練平臺功能


Nvidia更新機器人模擬和訓練平臺Isaac Sim,使用者可從雲端存取Isaac Sim、使用新AI功能來加速機器人訓練了。Isaac Sim建立在元宇宙平臺Nvidia Omniverse上,使用者可在各種操作條件下模擬真實環境,建置和測試虛擬機器人,來加速物流、製造和零售等產業的自動化應用。

網頁設計最專業,超強功能平台可客製,窩窩以「數位行銷」「品牌經營」「網站與應用程式」「印刷品設計」等四大主軸,為每一位客戶客製建立行銷脈絡及洞燭市場先機,請問台中電動車哪裡在賣比較便宜可以到台中景泰電動車門市去看看總店:臺中市潭子區潭秀里雅潭路一段102-1號。電動車補助推薦評價好的iphone維修中心擁有專業的維修技術團隊,同時聘請資深iphone手機維修專家,現場說明手機問題,快速修理,沒修好不收錢住家的頂樓裝太陽光電聽說可發揮隔熱功效一線推薦東陽能源擁有核心技術、產品研發、系統規劃設置、專業團隊的太陽能發電廠商。網頁設計一頭霧水該從何著手呢? 回頭車貨運收費標準宇安交通關係企業,自成立迄今,即秉持著「以誠待人」、「以實處事」的企業信念台中搬家公司教你幾個打包小技巧,輕鬆整理裝箱!還在煩惱搬家費用要多少哪?台中大展搬家線上試算搬家費用,從此不再擔心「物品怎麼計費」、「多少車才能裝完」台中搬家公司費用怎麼算?擁有20年純熟搬遷經驗,提供免費估價且流程透明更是5星評價的搬家公司好山好水露營車漫遊體驗露營車x公路旅行的十一個出遊特色。走到哪、玩到哪,彈性的出遊方案,行程跟出發地也可客製,產品缺大量曝光嗎?你需要的是一流包裝設計Google地圖已可更新顯示潭子電動車充電站設置地點!!廣告預算用在刀口上,台北網頁設計公司幫您達到更多曝光效益



Isaac Sim新功能有人物模擬功能,能在倉庫和製造設施中增添人物角色,還能讓人物執行不同動作,如推手推車。這個功能可讓開發者觀察,人機互動設計是否順暢,也能讓機器人學習避障和潛在意外。另一個新功能是即時呈現感測器資料,並能用光線追蹤技術模擬光達,在各種照明或反射材質條件下,獲得更準確的感測器資料,來讓機器人模擬更貼近真實世界環境。Isaac Sim其他更新還包括模擬3D物件庫、強化學習工具Isaac Gym,以及協作機器人程式開發工具Isaac Cortex等。


 


  OpenAI     Bing     ChatGPT  


微軟計畫用ChatGPT強化Bing搜尋功能


根據外媒The Information報導,微軟打算用ChatGPT來強化自家搜尋引擎Bing、提供新搜尋功能,預計在3月底推出。此外,微軟還可能用ChatGPT來分析用戶在研究的主題,好提供進一步的搜尋建議。


微軟這一舉動,代表使用OpenAI技術的微軟產品數量持續增加。微軟在2019年10月與OpenAI展開合作,投資10億美元來發展通用AI。2020年,微軟購買GPT-3獨家授權,在自家產品中整合GPT-3。2021年,微軟就在Power Apps中嵌入GPT-3,使缺乏程式開發知識的人,也能利用自然語言開發程式。去年,微軟整合OpenAI DALL-E 2,發布圖像設計應用程式,能根據文字提示生成影像。


  元宇宙     自然語言     3D  


Nvidia新添元宇宙平臺協作功能和自然語言搜尋服務


Nvidia更新元宇宙平臺Omniverse Enterprise,支援最新GPU技術強化效能和可用性,同時增添新功能,達到即時又精確的模擬品質。此外,Nvidia也更新Omniverse平臺核心,讓使用者快速連接工具、共享虛擬空間中協作。


Omniverse Enterprise是個讓企業用來開發、營運元宇宙應用程式的平臺,新加入的Omniverse連接器,可連接不同3D應用程式,實現無縫工作流程,另也支援如Adobe Substance 3D Painter、Autodesk Alias等軟體。此外,Nvidia也正式推出AI服務Omniverse DeepSearch,使用者可用自然語言或2D參考圖,直覺搜尋大型且未標記的3D資料庫。在平臺核心更新部分,則在用來建置擴充應用程式和微服務的Omniverse Kit SDK中,加入新模板和開發者工作流程,簡化開發作業。


  Google     文字轉圖像     Transformer  


速度更快、畫面更細緻!Google發表新文字轉圖像模型Muse


Google日前發表一款文字轉圖像模型Muse,以Transformer架構為基礎,號稱產出速度更快、生成畫面更細緻,比擴散模型和自迴歸模型的表現還要好。進一步來說,Muse是以遮罩任務訓練而成,也就是先在大型語言預訓練模型中抽出文字嵌入,再訓練Muse來預測隨機被遮住的圖片Token。


與DALLE-2這類像素空間的模型相比,Muse因為用了離散token,只需少量採樣迭代,因此更有效率。與Parti這類自迴歸模型相比,Muse因為用了平行解碼,因此也更有效率。Google表示,由於採用預訓練大型語言模型,Muse的語言理解能力,以至於從文字轉換為高保真圖片的能力都更細緻,而且對視覺概念的理解力也更強。


團隊也進行測試,9億參數版本的Muse經CC3M資料集測試,達SOTA水準,且用來測量生成圖片和真實圖片相似度的FID分數,達6.06分(越低越相近)。而30億參數版本的Muse,在零樣本COCO資料集測試評估中,得到7.88的FID分數。此外,Muse不必微調模型,就能直接用於圖片編輯應用程式,像是圖片修復、圖片外擴/腦補、編輯等。



圖片來源/微軟、BigScience、Nvidia


  AI近期新聞 


1. Apple Books新添AI語音功能,電子書可轉為有聲讀物了


2. 前特斯拉AI長Andrej Karpathy開源nanoGPT可優化GPT模型開發


資料來源:iThome整理,2023年1月

https://www.ithome.com.tw/news/155060



Orignal From: AI趨勢周報第205期:語音版DALL-E!微軟文字轉語音AI給3秒樣本就能準確生成

留言

這個網誌中的熱門文章

Python 併發總結,多線程,多進程,異步IO

1 測量函數運行時間 import time def profile(func): def wrapper(*args, ** kwargs): import time start = time.time() func( *args, ** kwargs) end = time.time() print ' COST: {} ' .format(end - start) return wrapper @profile def fib(n): if n<= 2 : return 1 return fib(n-1) + fib(n-2 ) fib( 35 )   2 啟動多個線程,並等待完成   2.1 使用threading.enumerate() import threading for i in range(2 ): t = threading.Thread(target=fib, args=(35 ,)) t.start() main_thread = threading.currentThread() for t in threading.enumerate(): if t is main_thread: continue t.join()   2.2 先保存啟動的線程 threads = [] for i in range(5 ): t = Thread(target=foo, args= (i,)) threads.append(t) t.start() for t in threads: t.join()   3 使用信號量,限制同時能有幾個線程訪問臨界區 from threading import Semaphore import time sema = Semaphor...

高雄十大包子名店出爐

, 圖文:吳恩文 高雄包子大賽落幕了,我只能就我個人意見, 介紹一下前十名這些包子,但是不能代表其他四位評審的意見,雖然身為評審長,我通常不會第一個表示意見,以免影響其他評審, 我主要工作是負責發問。   這次參賽的素包子很少,而且都不夠細致,又偏油,我不愛, 但是第一名的甜芝麻包-熔岩黑金包,竟然是素食得名- 漢來蔬食巨蛋店。   這包子賣相太好,竹炭粉的黑色外皮刷上金粉,一上桌,眾人驚呼, 搶拍照,內餡是芝麻餡,混一點花生醬增稠,加入白糖芝麻油, 熔岩爆漿的程度剛剛好,我一直以為芝麻要配豬油才行、 但是選到好的黑芝麻油一樣不減香醇, 當下有二位評審就想宅配回家。   尤其特別的是,黑芝麻餡室溫易化,師傅必須要輪班躲在冷藏室內, 穿著大外套才能包,一天包不了多少,我笑說,漢來美食,集團餐廳那麼多,實力雄厚,根本是「 奧運選手報名參加村裡運動會」嘛,其他都是小包子店啊, 但是沒辦法,顯然大家都覺得它好看又好吃, 目前限定漢來蔬食高雄巨蛋店,二顆88元,可以冷凍宅配, 但是要排一陣子,因為供不應求,聽說,四月份, 台北sogo店開始會賣。   第二名的包子,左營寬來順早餐店,顯然平易近人的多,一顆肉包, 十塊錢,是所有參賽者中最便宜的,當然,個頭也小, 它的包子皮明顯和其他不同,灰灰的老麵,薄但紮實有嚼勁, 肉餡新鮮帶汁,因為打了些水,味道極其簡單,就是蔥薑,塩, 香油,薑味尤其明顯,是老眷村的味道, 而特別的是老闆娘是台灣本省人, 當年完全是依據眷村老兵的口味一步一步調整而來,沒有加什麼糖、 五香粉,胡椒粉,油蔥酥。就是蔥薑豬肉和老麵香,能得名, 應該是它的平實無華,鮮美簡單,打動人心。   這是標準的心靈美食,可以撫慰人心,得名之前,寛來順已經天天排隊,現在,恐怕要排更久了, 建議大家六七點早點上門。   第三名,「專十一」很神奇,我記得比賽最後, 大家連吃了幾家不能引起共鳴的包子,有些累,到了專十一, 就坐著等包子,其他評審一吃,就催我趕快試,我一吃, 也醒了大半。   它的包子皮厚薄適中,但是高筋麵粉高些,老麵加一點點酵母, 我心中,它的皮屬一屬二,至於餡又多又好吃,蛋黃還是切丁拌入, 不是整顆放,吃起來「美味、均衡、飽滿」。一顆二十元。   老闆是陸軍專科十一期畢業取名專十一,...

韋伯連續劇終於更新 期待第一季順利完結

  地球天文學界的跳票大王詹姆斯·韋伯空間望遠鏡 (James Webb Space Telescope,縮寫為 JWST)自 1996 年以來斷斷續續不按劇本演出的連續劇終於讓焦慮的觀眾們又等到了一次更新:五層遮陽罩測試順利完成。 裝配完成的韋伯望遠鏡與好夥伴遮陽罩同框啦。Credit: NASA   嚴格的測試是任何空間任務順利成功的重中之重。遮陽罩,這個韋伯望遠鏡異常重要的親密夥伴,要是無法正常運轉的話,韋伯的這一季天文界連續劇說不準就要一直拖更了。   詹姆斯·韋伯空間望遠鏡是歷史上造出的最先進的空間望遠鏡。它不僅是一架紅外望遠鏡,還具有特別高的靈敏度。但想要達到辣么高的靈敏度來研究系外行星和遙遠的宇宙童年,韋伯童鞋必須非常"冷靜",體溫升高的話,靈敏度會大大折損。這個時候,遮陽罩就要大顯身手啦。   遮陽罩在韋伯的設計中至關重要。韋伯望遠鏡會被發射到拉格朗日 L2 點,運行軌道很高,遠離太陽、地球與月球。太陽是韋伯的主要熱量干擾的來源,其次是地球與月球。遮陽罩會有效阻斷來自這三大熱源的能量並保護韋伯維持在工作溫度正常運轉。這個工作溫度指的是零下 220 攝氏度(-370 華氏度;50 開爾文)。 上圖中我們可以看出,韋伯望遠鏡的配置大致可分為兩部分:紅色較熱的一面溫度為 85 攝氏度,藍色較冷的一面溫度達到零下 233 攝氏度。紅色的這部分中,儀器包括太陽能板、通信設備、計算機、以及轉向裝置。藍色部分的主要裝置包括鏡面、探測器、濾光片等。Credit: STSci.   遮陽罩的那一部分和望遠鏡的鏡面這部分可以產生非常極端的溫差。遮陽的這面溫度可以達到 110 攝氏度,足以煮熟雞蛋,而背陰處的部分溫度極低,足以凍結氧氣。   工程師們剛剛完成了五層遮陽罩的測試,按照韋伯在 L2 時的運行狀態安裝了遮陽罩。L2 距離地球約 160 萬公里。NASA 表示這些測試使用了航天器的自帶系統來展開遮陽罩,測試目前都已成功完成。韋伯望遠鏡遮陽罩負責人 James Cooper 介紹說這是遮陽罩"第一次在望遠鏡系統的电子設備的控制下展開。儘管這個任務非常艱巨,難度高,但測試順利完成,遮陽罩展開時的狀態非常驚艷"。   遮陽罩由五層 Kapton 製成。Kapton 是一種聚酰亞胺薄膜材料, 耐高溫絕...