使用DriverPower識別癌癥driver基因的綜合負(fù)荷和功能影響測試
3.候選driver event的發(fā)現(xiàn)
作者根據(jù)可供參考的driver元件集和其他六個已發(fā)布方法的候選driver程序?qū)ψ髡叩姆治鼋Y(jié)果進(jìn)行了基準(zhǔn)測試。
其中,使用三個參考driver元件集為:COSMIC癌癥基因普查(CGC),PCAWG原始綜合driver候選(PCAWG-raw),和PCAWG-consensus driver候選(PCAWG-consensus)。另外,六種已發(fā)布的方法中,ExInAtor20,ncdDetect21和LARVA22僅使用突變負(fù)荷信息。oncodriveFML23僅使用功能偏差;而MutSig24和ActiveDriverWGS25既可以對突變負(fù)荷也能通過功能校正進(jìn)行建模,但不能通過功能影響評分來建模。
CGC是driver的目錄,其突變與癌癥有關(guān)聯(lián),是編碼和剪接位點驅(qū)動的金標(biāo)準(zhǔn)集(即用于計算精確度和召回率)。
PCAWG-raw是driver元件的集成,該驅(qū)動程序元件由12種不同的驅(qū)動程序檢測方法對作者在此使用的同一數(shù)據(jù)調(diào)用。
PCAWG-concensus是一個保守的集合,它衍生自PCAWG-raw,但通過應(yīng)用多個嚴(yán)格的過濾器來控制錯誤發(fā)現(xiàn)率。
作者在DriverPower結(jié)果中觀察到了經(jīng)過良好校準(zhǔn)的p值(圖3d),并且編碼和非編碼driver發(fā)現(xiàn)的準(zhǔn)確性都很高(圖3e)。
圖3.泛癌隊列以及由三個參考驅(qū)動程序集(CGC,PCAWG-concensus或PCAWG-raw)中包含的DriverPower調(diào)用的非編碼driver候選的數(shù)量和分?jǐn)?shù)
對于蛋白質(zhì)編碼區(qū)(CDS),作者利用DriverPower發(fā)現(xiàn)了217個顯著的(q <0.1)候選驅(qū)動程序。少數(shù)基因(例如TP53)可以在多個隊列中作為driver基因。而且作者發(fā)現(xiàn)功能信息的合并提高了編碼driver發(fā)現(xiàn)的準(zhǔn)確性(圖 4a)。例如,在胰腺導(dǎo)管腺癌(Panc-AdenoCA; N?= 232),增加“功能調(diào)整”后的算法能挖掘到三個額外的driver(ACVR1B,RBM10和ZFP36L2)(圖4a)。而如果不合并功能信息,則CGC和CGC / PCAWG挖掘到的driver基因的整體精度均會下降。
圖4.合并功能信息后挖掘到三個額外的driver 均使用相同26個非黑素瘤/淋巴瘤隊列和CGC作為金標(biāo)準(zhǔn)集的情況下,DriverPower與其他六種方法進(jìn)行比較時,DriverPower(精度= 0.84;召回率= 0.79)的F1分?jǐn)?shù)最高(0.81)(圖5b-c)。
F1分?jǐn)?shù)(F1 Score),是統(tǒng)計學(xué)中用來衡量二分類模型精確度的一種指標(biāo)。它同時兼顧了分類模型的精確率和召回率。F1分?jǐn)?shù)可以看作是模型精確率和召回率的調(diào)和平均,最大值為1,最小值為0。
圖5.DriverPower與其他六種方法F1得分比較
4.對DriverPower發(fā)現(xiàn)driver性能進(jìn)行基準(zhǔn)測試
接下來,作者對DriverPower在非編碼driver event挖掘的準(zhǔn)確性進(jìn)行基準(zhǔn)測試。在剪接位點driver的識別上,DriverPower(F1 = 0.91)也優(yōu)于對比的兩種方法:ncdDetect(F1 = 0.65)和oncoDriverFML(F1 = 0.32)(圖6)。
圖6.預(yù)測影響編碼基因剪接位點的driver
進(jìn)一步,為了預(yù)測3'-UTR,5'-UTR,啟動子和增強(qiáng)子中的非編碼driver,DriverPower在非黑素瘤/淋巴瘤腫瘤隊列中確定了19個候選,在泛癌隊列中確定了24個候選;鶞(zhǔn)測試結(jié)果顯示,DriverPower在所評估的六種方法中同樣具有最高的F1分?jǐn)?shù)(0.79)(圖 7d-e)。
圖7.預(yù)測3'-UTR,5'-UTR,啟動子和增強(qiáng)子中的非編碼driver
5.DriverPower也適用于WES
為了展示DriverPower的魯棒性,作者將DriverPower應(yīng)用于兩個公共全外顯子測序(WES)數(shù)據(jù)集(圖8)。這兩個WES數(shù)據(jù)集的處理方式與PCAWG數(shù)據(jù)不同,并且包含PCAWG研究中未包括的樣本。對于肝癌,DriverPower從TCGA-LIHC樣本(N=364)中識別出14個編碼driver。而在CGC或PCAWG-concensus中,除一個driver丟失外,所有候選driver都存在。
而對于胰腺腺癌,DriverPower從TCGA-PAAD樣本(N=180)(與PCAWG研究中沒有共享的樣本)中識別出六個編碼driver,并且全部對應(yīng)于已知的驅(qū)動器基因(100%)。
圖8. WES的driver識別
本篇文章報告了DriverPower,這是一個通過合并突變負(fù)荷和功能影響信息來準(zhǔn)確識別驅(qū)動和乘客突變的新框架。該方法利用了WGS技術(shù)產(chǎn)生的大型體細(xì)胞突變集,借助一千多個基因組特征構(gòu)建了準(zhǔn)確的全局BMR模型,與使用選定區(qū)域或側(cè)翼區(qū)域構(gòu)建本地BMR模型的方法形成對比。其優(yōu)點之一是該方法不偏向于編碼區(qū),而是在編碼和非編碼區(qū)都使用相同的模型挖掘癌癥driver。該方法的另一個優(yōu)點是高度模塊化。DriverPower可以與其他類型的基因組元素(編碼的或非編碼的)、用于建模BMR的其他回歸算法以及其他功能影響評分方案一起使用。此外,盡管DriverPower是為WGS項目設(shè)計的,但它在WES策略中也表現(xiàn)出色。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
圖片新聞
技術(shù)文庫
最新活動更多
-
7.30-8.1火熱報名中>> 全數(shù)會2025(第六屆)機(jī)器人及智能工廠展
-
7月30-31日報名參會>>> 全數(shù)會2025中國激光產(chǎn)業(yè)高質(zhì)量發(fā)展峰會
-
精彩回顧立即查看>> 【線下論壇】新唐科技2025新品發(fā)布會
-
精彩回顧立即查看>> 【在線會議】研華嵌入式核心優(yōu)勢,以Edge AI驅(qū)動機(jī)器視覺升級
-
精彩回顧立即查看>> OFweek 2025(第十四屆)中國機(jī)器人產(chǎn)業(yè)大會
-
精彩回顧立即查看>> 【在線會議】從直流到高頻,材料電特性參數(shù)的全面表征與測量