Metformin-121

利用深度學習解讀啟動子DNA序列來預測酵母菌基因表達水平

利用深度學習解讀啟動子DNA序列來預測酵母菌基因表達水平

by Metformin-121

成果說明

 

了解基因表達的調控方式有助於理解各式各樣的生理疾病。細胞將會透過順式調控邏輯(cis-regulatory logic)”來調控基因表現,其中包含轉錄因子 (TF)與基因中特定的 DNA 序列結合。由於這樣的過程需要大量的參數來完整描述,所以該過程的模型建置極其複雜。現有的人類基因組中存在著很多問題,比如說例如大量重複的 DNA、大量的細胞調控差異、有限的基因檢測數據、以及許多體學方法的技術偏差。為了克服這些問題,我們針對單細胞生物酵母菌中數百萬個隨機生成的啟動子的順式調控邏輯進行了高通量的測量。

這些隨機生成的啟動子DNA序列集之大,以至於可以與整個人類基因組的複雜性相媲美,每個啟動子DNA序列產生的基因表現水平,可以通過其調節的螢光蛋白表現來測量,這也提供我們來學習理解基因調控所需的許多參數。因為人類和酵母菌的順式調控邏輯都使用相似的原理,所以我們希望能從酵母菌的數據中學習到好的模型架構,可以成為未來人類基因表現模型建置時的依據。

圖1 (擷取自https://www.synapse.org/#!Synapse:syn28469146/wiki/617075)

1. 數據使用說明

 

將DREAM Challenge 2022提供的數據根據順序分為訓練集(n = 6,000,000)和驗證集(n = 739,258)。通過使用 one-hot 編碼將DNA 序列中的每個字符對應到 4 個channel('T':[1,0,0,0], 'C':[0,1,0,0], 'G ':[0,0,1,0],'A':[0,0,0,1],'N':[1,1,1,1])。每個 DNA 序列的 one-hot 編碼(包括啟動子兩側的接頭及其本身)最高長度為142。當DNA序列長度小於142時,將從前端開始用代表缺失值的one-hot encoding [0, 0, 0, 0]填補。所有預測值皆會除以原始值數據中位數的 2 倍 (2 * np.median(Y))。沒有利用其他數據生成器或數據增強的方法。

圖2 (訓練資料來自https://www.synapse.org/#!Synapse:syn28469146/files/)

 

 

2.  模型說明

 

我們的模型建立在 8 個雙向門控循環單元(GRU)、一個注意力層[1,2] 和最後一個密集層的組合架構上。在注意力層和密集層之間,為了避免過度擬合,應用了批量歸一化[2]。 LeakyReLU 激活函數是 Rectified Linear Unit 的變形版本,用於批量歸一化之後[3]。在 LeakyReLU 激活之後,我們利用 dropout 層進行泛化。

圖3 (模型架構與參數)

 

3.  訓練過程

 

我們的分類器訓練是使用均方誤差損失函數(Mean-square error)和 ADAM 優化器來進行 [4]。初始學習率為 0.001。我們的模型經歷了 30 個訓練時期(epoch)後在其驗證集上的進行了表現評估。最後我們選取了其中擁有最低均方誤差損失的模型來當作最後選取的最佳模型。

 

4.  成果與截圖

 

對於最後選取的最佳模型,其訓練集的決定係數(Coefficient of determination)為0.5728,驗證集的決定係數為0.5372。

圖4 (模型在驗證集預測與實際值的Correlation)

 

 

5.  參考文獻

 

Schuster, M., and Paliwal, K.K. (1997). Bidirectional recurrent neural networks. Ieee Transactions on Signal Processing 45, 2673-2681.

Yang, Z., Yang, D., Dyer, C., He, X., Smola, A.J., and Hovy, E.H. (2016). Hierarchical Attention Networks for Document Classification. Paper presented at: HLT-NAACL.

Maas, A.L. (2013). Rectifier Nonlinearities Improve Neural Network Acoustic Models Proc. icml 30 (1), 3.

Kingma, D.P., and Ba, J. (2014). Adam: A Method for Stochastic Optimization. In ArXiv eprints.

主辦單位

協辦單位

競賽相關事宜 連絡信箱:ariel.tsai@ecloudvalley.com