若論近30年人類生物醫學基礎研究,遺傳密碼的測量必定是最耀眼的成果之一。人類代代繁衍,靠什么實現遺傳?遺傳信息儲存在哪里?它們是什么樣子?
我們知道,遺傳信息儲存在DNA(脫氧核糖核酸)里,長長的DNA序列由四種堿基A、G、C、T排列組成,不同的序列段記載不同的信息。有些段落含有制造蛋白質的信息,這些段落就是我們常說的基因。一整套人類DNA序列被稱作“人類基因組”,它不僅包含所有人類基因,還包含大量不用來編碼蛋白質的其他有用信息。DNA在每個細胞的細胞核里組成染色體,DNA要釋放的信息先轉錄產生mRNA(信使核糖核酸),mRNA再翻譯制造蛋白質進而完成各種生物學功能,這就是著名的“中心法則”。
一個人的遺傳密碼到底有多長?約30億個字符。如果一頁打上3000個遺傳密碼,用A4紙打印出來裝訂成書,厚度能達到約100米,有30多層樓那么高。20世紀90年代初,“人類基因組計劃”正式啟動,開啟人類在分子水平上認識自身遺傳密碼的新航程。2001年,人類基因組精細圖譜及其初步分析結果發布,使我們看到由四種符號組成的一維人類遺傳密碼的真實面貌。人類基因組研究促成基因檢測等一系列新技術出現,還帶來基因診斷、基因治療、靶向藥物等醫學新手段,生物醫學進入建立在基因組大數據基礎上的精準醫學時代。
在分子水平上認識人類生命活動
“人類基因組計劃”不僅找到了各種人類基因,積累了大量基因組數據,還積累了由基因組轉錄出來的各種RNA(核糖核酸)數據,以及由mRNA翻譯產生的各種蛋白質數據。RNA的集合稱為轉錄組,蛋白質的集合稱為蛋白質組,機體所有代謝產物組成代謝組,此外還有表觀遺傳組等。通過大數據研究這些“組”及其相互關系的工作即稱“組學大數據”研究,組學大數據的介入成為當代生物醫學發展的典型特征。
有了這些大數據,就能夠從分子水平上了解人體生長、發育、正常生理活動的本質和基礎,還能夠通過對健康人和病人組學大數據的比較找到各種疾病在分子水平的病因。我們已經知道,約有6000種以上的人類疾患是由各種基因突變引起的,比如有人估計與癌癥相關的原癌基因約有上千個。大數據的分析還帶來很多與疾病相關的新發現,比如發現人類基因組中不編碼蛋白質的序列(非編碼序列)的突變也可能導致疾病。
更多的疾病是環境(包括致病微生物)與人類基因及其產物相互作用的結果。在醫學領域,由于組學大數據的應用,人們也開始關心其他相關數據的搜集、整理,共同形成醫學領域的大數據。比如,記載病人基本情況的電子病歷,可穿戴設備測量的生理指標,超聲、核磁、CT等影像數據以及各種環境大數據等。當今人類面臨的人口、健康、食物、環境、資源等重大問題都同生物醫學大數據密切相關,研究生物醫學大數據對人類健康與可持續發展具有重要意義。
為診斷治療帶來新技術新方法
當我們知道了人類全部基因在染色體上的位置、它們的序列特征及其表達規律和產物特征,就可以有效判定各種疾患的分子機制,進而發展合適的診斷和治療手段。生物醫學大數據研究為生物醫學發展提供前所未有的機遇,為疾病診斷與治療帶來許多新技術、新方法,如基因診斷、基因治療、靶向藥物等。
基因診斷。伴隨基因組大數據的收集、分析,人們發現很多疾病包括腫瘤是基因突變造成的,研究人員把遺傳密碼的變化記錄下來并保存到數據庫中,然后通過測序或基因芯片檢查病人基因是否發生了這種變化,以幫助疾病確診,這就是基因診斷。不同人得了同一種疾病,基因檢測可能會發現他們基因突變的位點完全不同,因此對同種藥物的反應也不同,必須因人而異地制定醫療方案,這種個性化治療更加精準。
基因治療。即將正常外源基因通過基因轉移技術插入病人的適當受體細胞中,使外源基因制造的產物得以糾正或補償因基因變異或基因表達異常引起的疾病。目前,基因治療的對象已經由單基因遺傳病逐步拓展到惡性腫瘤、感染性疾病、心血管疾病、自身免疫性疾病、代謝性疾病等重大疾病。
靶向藥物。當我們知道哪些基因序列變化會導致疾病,就可以通過測量局部基因序列來鑒定導致疾病的基因。比如,特定基因的突變可引起癌癥,這些突變了的基因就是腫瘤治療的目標,也就是“靶向”,針對這些靶向設計的藥物就是靶向藥物,靶向藥物的治療目標是具體的、精確的。比如,赫賽汀就是以特定基因為靶向設計的乳腺癌治療藥物。
人類有望進入精準醫學時代
基因組研究不斷深入和基于大數據的新方法、新技術投入應用,將使醫療更加精準有效,人類有望進入精準醫學時代。
精準醫學是組學大數據與醫學的結合。精準醫學在使疾病診斷更加準確、治療更加有效的同時,還能為醫療體系帶來更加重要、更為本質的變化。尤其是,幫助人們在沒有發病的情況下根據基因組序列的變化預測疾病發生的潛在風險,從而能對任何個人在其成長任何時期進行健康評估、預測,并制定相應干預方案,進而做到健康保障。所以,精準醫學的長遠意義是使醫療關口前移:從診斷治療到健康保障。當前的醫療體系以病人為主體,以疾病診斷治療為目的。將來的醫療體系則是面對所有社會成員,對社會成員整個生命周期進行監測,從而實現以健康評估、健康預測和健康干預為目標的健康保障。
實現精準是目標,我們現在離這一目標還有很大距離,存在多方面巨大挑戰。比如人類基因組解譯的挑戰。人類基因組上編碼蛋白質的區域,也就是基因,只占一小部分,不超過整個基因組的3%,其余97%左右的DNA序列統稱為非編碼DNA。近年來大量研究表明,占人類基因組97%的非編碼序列具有重要的生物學功能,且與人類疾病直接相關。迄今為止,我們對這些非編碼序列以及相關的非編碼基因和非編碼RNA的功能只有很少了解。在這種情況下,實現精準是困難的。
再比如大數據挖掘的挑戰。生物醫學相關的大數據不僅數量大,而且是多尺度、異質化、高度復雜的。這些數據小到分子、細胞,大到器官、整體,尺度相差甚遠;這些數據有的是數字、符號,如基因組數據;有的是波形,如心電、腦電;有的是圖像,如超聲、核磁、CT。同時,生命活動和疾病發生是動態的,往往不是由一個基因決定,可能有多個基因參與。因此,大數據解析還必然涉及復雜網絡。面對如此復雜的數據挖掘,人工智能技術將成為從海量、復雜的生物醫學大數據中獲取生命活動知識的有效工具。
基因組大數據發展路上的各種挑戰,其實也為科學技術原始創新提供巨大機遇。現在作為臨床分子標記的只是占人類基因組約3%的編碼序列,如果把97%的非編碼序列中與疾病相關的分子標記都挖掘出來,將會增加無數新的分子標記和藥物設計的靶標。
精準醫學是我們向往的目標,實現它還有很長的路要走。人類通過不斷努力,遺傳密碼逐步破譯,人類醫學必將更加精準。期待這一天早日到來。
(作者為中國科學院生物物理所研究員、中國科學院院士)