ChatGPT等大模型點燃人工智能新一輪熱潮之際,另一種累積數百萬年的天書般“語言”也在試圖用該技術獲得最新解碼。近日,全球基因測序儀龍頭因美納(Illumina)宣布推出全新的人工智能算法PrimateAI-3D,以求更準確地預測患者致病基因突變。
據美國國家衛生研究院發布的數據,每年生成的基因組數據量接近400億GB。然而,獲取這些數據僅僅是解開諸多生命謎團的第一步,想要讓它們真正有助于人類健康,尚需深度的解讀和分析。
(資料圖片僅供參考)
目前的科學研究顯示,每個人都攜帶著數百萬種基因變異,正是這些變異導致了健康和疾病風險的個體差異,但目前大多數變異的作用方式尚不明確。美國貝勒醫學院人類基因組測序中心和因美納人工智能實驗室希望借助PrimateAI-3D更進一步解決問題。
據因美納方面介紹,PrimateAI-3D采用了與ChatGPT和AlphaFold類似的深度神經網絡架構,不同之處在于PrimateAI-3D是根據基因組序列而不是人類語言來進行訓練。“你可以在維基百科和其他地方的現有文本上訓練ChatGPT等生成語言模型,我們使用了類似的深度學習架構,但我們的數據來自數百萬年的自然選擇。”因美納人工智能副總裁Kyle Farh表示。
另外,在ChatGPT等生成語言模型中,現有的文本就可以為訓練提供信息,而人類基因組中導致疾病的基因變異在很大程度上卻是未知的。為解決這一問題,PrimateAI-3D利用自然選擇來訓練深度神經網絡的參數,這種訓練基于此前對233種不同靈長類動物進行測序時發現的數百萬種良性基因變異來開展,這也是迄今為止開展的最大規模的非人類靈長類物種測序工作。
“我們已經證明,我們對非人類靈長類動物的遺傳變異了解得越多,就越能更好地預測哪些突變可能導致人類疾病。”來自美國貝勒醫學院的Jeffrey Rogers說。
隨后,包括Rogers在內的美國貝勒醫學院人類基因組測序中心及分子與人類遺傳學系的研究人員和Farh領導的因美納人工智能實驗室團隊,將PrimateAI-3D算法應用到了英國生物樣本庫的近50萬個個體中,識別潛在的致病人類突變。與之相關的兩篇研究近日發表在頂級學術期刊《科學》(Science)上。
他們發現,在調查的90種不同臨床病癥中,普通人群里97%的健康成員的基因組中至少潛伏著一種高度可干預變異。研究結果還發現了導致常見疾病高風險的罕見基因變異。Farh說,總體而言,PrimateAI-3D在評估心血管疾病和2型糖尿病等健康問題的遺傳風險方面,比以往任何一種方法準確度都要提高至少12%。
Farh還補充提到,這項新技術的一個優勢在于,它同樣適用于整個人類。這也意味著,其克服了現有遺傳風險評估中固有的對歐洲白人血統人群的偏見,這些評估主要基于這些群體的數據。
因美納首席技術官Alex Aravanis表示,“將最新的人工智能技術應用于基因組學,以揭示糖尿病、心臟病和自身免疫性疾病等復雜遺傳疾病的關鍵底層信息,這一技術的推出為因美納在遺傳風險預測和藥物靶點發現方面帶來巨大機遇。”
據因美納方面表示,PrimateAI-3D將集成在因美納的互聯軟件中,供基因組學界使用。
(文章來源:澎湃新聞)
關鍵詞: