商湯科技在醫(yī)療人工智能領(lǐng)域取得重大突破,其針對醫(yī)療大模型訓(xùn)練數(shù)據(jù)難題的創(chuàng)新解決方案被國際頂級學(xué)術(shù)期刊《Nature Medicine》收錄。這一研究成果為解決醫(yī)療AI模型訓(xùn)練中面臨的數(shù)據(jù)稀缺、標(biāo)注成本高、隱私保護(hù)等核心挑戰(zhàn)提供了重要技術(shù)路徑。
醫(yī)療大模型的訓(xùn)練長期以來受限于高質(zhì)量標(biāo)注數(shù)據(jù)的匱乏。醫(yī)療數(shù)據(jù)不僅涉及患者隱私保護(hù),專業(yè)標(biāo)注更需要資深醫(yī)師參與,導(dǎo)致數(shù)據(jù)獲取成本高昂且規(guī)模有限。商湯研究團(tuán)隊創(chuàng)新性地提出了多模態(tài)數(shù)據(jù)融合與自監(jiān)督學(xué)習(xí)相結(jié)合的新型訓(xùn)練范式。
該技術(shù)方案的核心突破在于:通過聯(lián)邦學(xué)習(xí)技術(shù)實現(xiàn)在不集中原始數(shù)據(jù)的前提下進(jìn)行模型訓(xùn)練,有效保護(hù)患者隱私;利用自監(jiān)督學(xué)習(xí)方法從海量未標(biāo)注醫(yī)療數(shù)據(jù)中自動學(xué)習(xí)特征表示,大幅降低對人工標(biāo)注的依賴;第三,開發(fā)了跨模態(tài)對齊算法,能夠?qū)⑨t(yī)學(xué)影像、電子病歷、基因組學(xué)等多源數(shù)據(jù)進(jìn)行有效融合。
研究團(tuán)隊在多個醫(yī)療場景下的實驗表明,采用該技術(shù)訓(xùn)練的模型在疾病診斷、預(yù)后預(yù)測等任務(wù)上的表現(xiàn)顯著優(yōu)于傳統(tǒng)方法,同時在數(shù)據(jù)效率方面提升了3-5倍。這意味著在相同數(shù)據(jù)規(guī)模下,模型能夠獲得更好的性能,或者在達(dá)到相同性能水平時所需數(shù)據(jù)量大幅減少。
這項研究成果不僅為醫(yī)療AI的發(fā)展提供了重要技術(shù)支撐,更為解決醫(yī)療領(lǐng)域數(shù)據(jù)孤島問題開辟了新思路。隨著該技術(shù)的推廣應(yīng)用,有望加速醫(yī)療AI在臨床診斷、藥物研發(fā)、健康管理等領(lǐng)域的落地進(jìn)程,為提升醫(yī)療服務(wù)質(zhì)量和效率注入新動力。