(資料圖片)
湖北日報訊(記者張真真、通訊員詹欣芮)透過《月光曲》就可以暢談貝多芬的故事,在三維場景里實現精準定位,通過圖像與聲音結合完成場景分析……6月16日,在人工智能框架生態峰會2023上,中國科學院自動化研究所聯合武漢人工智能研究院正式發布“紫東太初”全模態大模型,種種新奇表現贏得現場觀眾熱烈反響。
“紫東太初”全模態大模型,是在千億參數多模態大模型“紫東太初”1.0基礎上升級打造的2.0版本。
2021年9月,中國科學院自動化研究所成功打造了“紫東太初”1.0多模態大模型,貫通語音、圖像、文字等信息。比如,AI(人工智能)在學習時,“看到”貓的圖像或者聽到貓的叫聲,就能準確識別出是貓。
除“圖-音-文”外,“紫東太初”2.0加入了視頻、傳感信號、3D點云等更多模態,完成了音樂、圖片和視頻等數據之間的跨模態對齊,能夠處理音樂視頻分析、三維導航等多模態關聯應用需求,并可實現音樂、視頻等多模態內容理解和生成。
中國科學院自動化研究所相關負責人表示,從1.0到2.0,“紫東太初”大模型打通了感知、認知乃至決策的交互屏障,使人工智能進一步感知世界、認知世界,從而延伸出更加強大的通用能力。
“紫東太初”2.0以自動化所自研算法為核心,以國產化基礎軟硬件平臺昇騰AI為基礎,依托武漢人工智能計算中心算力支持,著力打造全棧國產化通用人工智能底座,協同構建我國通用人工智能自主可控發展生態。
目前,“紫東太初”大模型已展現出廣闊的產業應用前景,在神經外科手術導航、短視頻內容審核、法律咨詢、醫療多模態鑒別診斷、交通違規圖像研讀等領域開始了一系列引領性、示范性應用。
在醫療場景,“紫東太初”大模型部署于神經外科機器人,可實現在術中實時融合視覺、觸覺等多模態信息,協助醫生對手術場景進行實時推理判斷,并嘗試在人類罕見病診療這個挑戰性醫學領域有所突破。
關鍵詞: