• 2019-05-16
  • 新聞快遞
  • ghzhb

       應北京大學“大學堂”頂尖學者講學計劃的邀請,國際知名統計學家,美國國家科學院院士,美國斯坦福大學統計系、生物醫學數據科學系王永雄(WING HUNG WONG)教授于5月訪問北京大學,發表兩場學術演講,并與北大相關學科的師生進行深入交流。本次活動由北京大學統計科學中心、國際合作部主辦,光華教育基金會提供資助。

演講現場

       5月7日下午2時,王永雄首場公開演講“精準醫學的大數據創新”舉行。來自北京大學統計科學中心、數學科學學院、光華管理學院、生命科學學院、醫學部以及清華大學、中國科學院等高校與科研院所的師生、部分業界人士聆聽了演講。演講會由北大統計科學中心、生命學院李程教授主持。

王永雄發表“精準醫學的大數據創新”演講

       王永雄首先提出了精準醫學的最新概念,精準醫學能根據病人在基因與環境上的個體差異,實現最合適的診斷和治療。他以精確癌癥分型對靶向治療的促進、基因測序對罕見病診斷治療的幫助為例,深入淺出地介紹了精準醫療技術對提高人類對抗疾病能力的重要性。他指出,人們密切關心的糖尿病、心臟病等慢性常見病往往受復雜的基因和環境相互作用影響,難以澄清疾病的病因、機制和進展,而精準醫療將憑借其獨特優勢在這一領域發揮重要作用。

       王永雄分別介紹了目前精準醫療研究中的兩個著手點,一方面以表型為中心開展研究,通過分析患者癥狀,在臨床數據庫對照病例進行查詢,對應基因組數據庫的基因型,利用統計分析工具找出致病基因與染色體區域;另一方面,從基因和位點出發進行分析,通過基因變異點查詢基因組數據庫,標記有此基因變異者的ID后從臨床數據庫查詢有此變異者的臨床癥狀,從而通過數據挖掘的方式找出此基因變異位點共有的表型與癥狀。但他同時指出,無論哪一種分析方法,當代精準醫學的發展都離不開大數據的支持,其中最重要的數據資源就包括大規模的患者遺傳和臨床數據。王永雄介紹了英國的生物樣本庫(UK Biobank)項目,這一由英國政府發起成立的科研項目計劃歷時30年,收集50萬英國人的醫療健康資料,向研究“遺傳和環境的復雜互動與患病風險”的研究人員提供寶貴的醫學數據資源。在數據庫建立方面,中國雖然起步較晚,但現在越來越多的科研經費正在向精準醫學領域傾斜,越來越多的研究力量投入到這一領域當中。此外,王永雄還呼吁中國建立類似于英國生物樣本庫的全國性大隊列,“這將是一個國家必不可少的健康資源,有助于澄清基因型與表型之間的關系”。

       王永雄詳細論述了怎樣解析基因型與表型之間的關系。純粹統計性質的分析往往局限于個人化的數據,不能進行更大范圍的推廣。因此,他提出應該建立一個更加普適的、非個人化的參考模型(reference model)進行多層次因果機制分析。他將這一模型分解成個人基因組的變異層、基因層、細胞層、器官層、臨床表型層、疾病層等多個層次,通過建模學習不同層次節點之間的關系。他指出,多層次機制模型是精準醫學的基礎,可以幫助推斷基因變異對細胞生理、器官功能以及身體發育、疾病風險的影響,一個好的模型可以提高無數基因組的價值。他倡導在建設大型隊列的同時,投入部分資源,以高通量組學方法產生基本數據,構建基本參考模型。這一模型的構建將涵蓋單細胞基因組學、組織學、醫學成像、基因組編輯、類器官在類的多種研究學科,為新科學新產業的發展提供更多機會。

       王永雄介紹,這一模型的構建將依賴于全人口規模的真實世界數據(Real World Data)。中國多數醫院已實施電子病歷系統,這些醫療數據規模大、專業性強、細分領域多,將為智能醫療創新提供原油,但同時我們也要注意到,中國醫療數據結構化困難、異構性強、質量參差不齊,中國智能醫療產業缺乏共享精神、缺乏社會認同、缺乏監管法例,這些都是擺在中國精準醫療產業領域不可回避的挑戰。為了克服這些困難,他提出一方面從數據出發,進行數據的智能結構化、標準化;另一方面,建立智能患者索引機制,二者互相促進,實現以患者為中心的數據整合。

       王永雄對大規模的數據覆蓋充滿信心,他倡議通過政府政策誘導,孵化促生一個可持續可擴展、融合在全國醫療系統內的基因醫療數據積累及應用系統。具體而言,通過政府和社會努力,降低消費者測序費用,提供數據價值的同時保護隱私,最終實現覆蓋全人口的長遠目標。

       王永雄還介紹了精準醫療迅猛發展帶給初創企業在疾病篩查、診斷、治療等方面的廣闊應用天地。他總結道,通過資源共享,同時保持競爭和多樣性,降低精準醫療的研發成本和服務費用,未來精準醫療在中國的發展必將充滿活力。對于數據科學相關專業的同學來講,我們更應該認識到,數據和人工智能是醫療保健領域的重要增長動力,伴隨著中國醫療衛生體制和行業的快速變化發展,數據科學人才也將獲得施展才華的豐富機會。

交流環節

       演講結束后,現場師生就精準醫療、人工智能、數據安全等前沿問題與王永雄展開深入交流。

合影

       5月9日下午,王永雄在光華1號樓202報告廳作題為“The joint analysis of bulk and single cell genomics data”的學術報告。來自北大統計科學中心、數學學院、光華管理學院、生命學院及清華大學、中科院等單位的200余名研究人員及學生參加。報告會由北大統計科學中心、光華管理學院陳松蹊教授主持。

報告現場

       王永雄指出,在通常情況下,單細胞數據分析的第一步往往是聚類分析,即將得到的單細胞樣本分成不同的子類。近年來,隨著單細胞基因組學的發展,高通量的測序手段有了迅猛發展,這些測序手段的出現使得我們可以對同一細胞總體的多個子樣本同時展開基因表達、染色體、DNA等多種維度的特征刻畫。而如何充分利用來自不同樣本、不同維度的信息對抽樣總體進行合理聚類便成了一個亟待解決的問題。為了將多個子樣本的聚類信息進行耦合,王永雄研究團隊提出了一種基于非負矩陣分解(nonnegative matrix factorization)的耦合聚類(coupled clustering)方法(coupled NMF)。與以往的聚類方法不同,這一方法主要解決的統計問題是,樣本存在兩種不同的分類特征,這兩個特征的維數分別為和,每一種特征都由一個獨立的樣本測量得來。

王永雄作“The joint analysis of bulk and single cell genomics data”報告

       具體而言,這一方法先將第一個樣本通過非負矩陣分解的形式進行“軟”聚類(“soft” clustering),同理,我們也可以對第二個樣本做同樣的聚類。為了將兩個矩陣的分解耦合在一起,王永雄引入了“耦合矩陣”(coupling matrix)的概念,事實上,該耦合矩陣代表著從一種特征到另一種特征的預測算子,可以通過專業知識或者外部數據獲得。在目標函數中加入帶有耦合矩陣和分解矩陣跡的懲罰項,可以保證第二個樣本中的特征與第一個樣本特征的線性變換之間的一致性。他詳細介紹了基于基因配對表達數據(paired expression)和染色質可進入數據(accessibility data)的耦合矩陣的訓練方法。模擬數據顯示,王永雄提出的基于耦合非負矩陣分解(Coupled NMF)的聚類方法與傳統的K-means聚類和分開的非負矩陣分解方法相比具有非常明顯的優勢。

       王永雄介紹,這一方法可以推廣到更廣泛的應用場景中,例如可以用來開發三維染色質環數據(3D chromatin contact loop data)和單細胞與批量數據的聯合分析等。這一方法在多種實驗設計的情形下都能保證有效性。他指出,實驗中使用Hi-C數據可以有效避免估計耦合矩陣時對外部信息的引入。在這一背景下,這一方法既在每個批量樣本上對信號進行了去卷積化,又在單細胞樣本上做了耦合聚類。

       報告結束后,王永雄回答了現場聽眾關于該方法理論細節、更多實驗效果等方面的問題,并和廣大師生和遠道而來的學者深入交流。

美國國家科學院院士、北京大學生物醫學前沿創新中心主任謝曉亮與王永雄探討學術問題


鸿运国际