利用PlantGSAD資料庫平台對農業基因體資料基因群富集分析之簡介.pdf
b"酪 梨
果實成熟度指標
生物資訊
利
用 PlantGSAD資料庫平台
利用
P
l
a
n 對農業基因體資料基因群富集分析之簡介
t
G
S
農試所作物組 賴牧謙吳東鴻李長沛
A
D
一、前言
資
料 作物遺傳學的進展,隨著基因定序技術的不斷突破,產生了與生物表現量有關
庫
平 的大量的體學資訊,如轉錄體學、蛋白質體學、微生物體學與代謝體學等重要性狀之
台
遺傳調控數據。在轉錄體學方面, 定序 分析為了解基
對 RNA (RNA sequencing, RNA-seq)
農 因表現量的重要方式之一,透過次世代定序 技術的
(next generation sequencing, NGS)
業
基 突破大量解序並量化生物體內所有基因或轉錄體的表現狀況,相較於過去的微陣列
因
分析 具有較高的精確度與覆蓋度,其流程包含 萃取、互補 文庫
體 (microarray) RNA DNA
資 備製、上機定序與生物資訊分析。在成千上萬的 資料中,研究
(cDNA library) RNA-seq
料
基 者會根據基因的表現為上調或下調、P值顯著與否設定篩選的門檻,一般而言篩選的
因
門檻為挑選 值小於 或倍數變化 大於 的 ,側重關注顯著上調或
群 P 0.05 (fold change) 2 DEGs
富 下調的差異性表現基因 。然而,在生物體中,不同
(differential expression genes, DEGs)
集
分 部位與組織對差異性表現量的敏感度不同,這樣的作法容易忽略差異性表現量不顯
析
著,但卻具有重要生物功能的基因。例如轉錄因子,表現量少但一經開啟便可引發一
之
簡 連串下游基因的表達。
介
由於參與某些功能的基因,經常是一個接著一個序列啟動,因此參與該功能
表達的類型或路徑就形成所謂的基因群 ,從這些已知和某種功能有關的
(gene-set)
基因群中找出在試驗中存在差異表現的分析方法,就稱為基因群富集分析
(gene-set
。 不需要特別指定差異性表現的閾值,而是利用統計
enrichment analysis, GSEA) GSEA
檢定分析表現量資料的整體趨勢,銜接表現量數據與生物學意義,為分析基因表現
量資料開闢出一條新的道路。本篇將介紹論基因富集分析的原理,並以水稻核糖核酸
通訊作者:李長沛副研究員
連絡電話:04-23317177
30 -農業試驗所技術服務季刊.2022年6月.130期-生物資訊
測序 資料為 其中, 為基因組功能註釋資料庫 利
(RNA sequencing, RNA-seq) N
用
例,利用PlantGSAD線上基因組功能註 總基因個數;n為目標基因群的基因數 P
l
釋資料庫進行 示範操作,導入視覺 目; 為特定功能基因群之基因數目;
GSEA K
a
化圖表深度剖析複雜且龐大的表現量資 k為目標基因群與特定功能基因群重疊 n
t
料,有助於深化農業科研人員之研究成 之基因數目。不同基因群之間的關係以
G
果。 文氏圖進行詳細說明,如圖一所示。最 S
A
後,會利用 對費
false discovery rate (FDR) D
二、基因群富集分析原理
資
雪精確性檢定所得到的 值進行校正。
P
料
基因群富集分析的定義,是根據已
庫
經建構好的基因組功能註釋資料庫對目 三、PlantGSAD資料庫背景介紹 平
台
標基因群進行功能性分類。當中,最常
PlantGSAD (http://systemsbiology. 對
使用的基因組功能註釋資料庫為基因本 為 等人 農
cau.edu.cn/PlantGSEAv2/) Ma
業
體論 以及京都基因與 於 年所架設之線上基因組功能
(gene ontology, GO) 2021 基
基因組百科全書 註釋資料庫,前身為 所架設的 因
(Kyoto Encyclopedia of 2013
體
Genes and Genomes, KEGG)。GO 將註釋 PlantGSEA (http://systemsbiology.cau.edu. 資
料
分為分子生物學功能、生物學過程與細 。 採用
cn/PlantGSEA/) PlantGSAD LAMP
基
胞學成分。透過此三大分類,對目標基 系統 因
(Linux + Apache + MySQL + PHP/
群
因群的功能進行多層面的描述。 建立線上資料庫,以 為底
KEGG Python) Linux 富
則是一個整合基因組、化學、生理與系 層作業系統, 架構網站伺服器, 集
Apache
分
統生物學之綜合資料庫,詳細記錄各個 MySQL負責儲存與管理大量生物學資 析
之
基因與蛋白質所參與生物調控途徑。 料, 負責使用者互動介面與
PHP/Python
簡
此外,除了挑選基因組功能註釋資 資料存取。由於其免費與開放原始碼之 介
料庫,還必須對目標基因群進行基因群
富集檢定 ,確
(gene-set enrichment tests)
認基因組功能註釋資料庫中預先定義之
特定功能基因群,是否由目標基因群中
的 所富集。常見的檢定方法有超幾
DEGs
何檢定、費雪精確性檢定
(Fishers exact
和卡方檢定。最常使用的費雪精確
test)
性檢定公式如下:
圖一、基因群富集檢定各基因群間關係文氏
圖。其中,N為基因組功能註釋資料庫總基因之
集合;n為目標基因群之集合;K為特定功能基
因群之集合;k為目標基因群n與特定功能基因
群K之交集 (intersection)。
-農業試驗所技術服務季刊.2022年6月.130期- 31生物資訊
利 特性,近年來開始將這四個軟體組合在 膜的胞器 例如核仁 如何在細胞質內
( )
用
P 一起架構線上資料庫平台。 與其他物質區隔,獨立進行生化反應。
l
為近期新發表之高等 亦將調控液 液相分離的基因
PlantGSAD PlantGSAD -
a
n 植物整合型基因富集分析資料庫,其 資料庫納入,如DrLLPS。
t
主要特色為彙整過去所有高等植物相
G
四、PlantGSAD資料庫操作簡介
S 關的基因組功能註釋資料庫,蒐集了涵
A 當使用者手上有一筆植物 資
DEGs
蓋 個物種共 個功能基因集,
D 44 236,007
料,便可以利用 對其進行基
資 PlantGSAD
並依據資料庫的屬性區分成 大類,如
9
料
因富集分析。首先,在單一基因或基因
庫 表一所示。其中,G1與G2主要為體學
平 集搜尋的部分,PlantGSAD提供使用者
資料,如 、 。
台 AgriGO(v2) Phytozome(v13)
查特定基因在 大類基因註釋資料庫中
對 主要收錄路徑調控分析資料庫,包含 9
G3
農 的功能註解,亦可查詢指定功能基因集
、
業 KEGG MapMan (https://mapman.gabipd.
圖二 、 、 。在基因富集分析方面,
基 和 ( A B C)
org/imprint) PlantCyc (https://plantcyc.
因 選定物種、輸入目標 後,可以選
DEGs
體 org/)。G4 收錄數個基因家族的資料庫,
資 擇欲進行分析的富集類別,PlantGSAD
例如 ,為醣類分子相關酵
CAZy database
料
允許使用者同時勾選 大類別的富集分
9
基 素資料庫。 則是收錄染色質狀態相關
G5
因 析資料庫,以方便使用者比較不同類別
資料,主要資料來源為 。
群 PCSD database
間對同一目標差異表現基因集功能上的
富 前人研究顯示,細胞內的 序列會和
DNA
集 差異,此項功能是 的一大特
PlantGSAD
分 組蛋白結合,進而構成不同的染色質狀
析 色 (圖二D)。最後,PlantGSAD提供視覺
態 ,主要區分成緊密與
(chromatin states)
之
化的圖表,包含有向無環樹狀圖
(direct
簡 疏鬆兩種,不同的染色質狀態會影響後
介 acyclic graphical tree, DAG tree) 與基因-
續的基因表達。因此, 將其
PlantGSAD
註解重疊矩陣 圖二 。 不同與
( E) DAG tree
納入資料庫中並進行整合。 方面,收
G6
網絡圖,各節點間具有方向性,但不會
錄了轉錄因子與微核醣核酸相關之資料
形成環狀之構造,適合用來描述註解與
庫,諸如 與
Plant Cistrome Database Plant
註解之間的上下游關係。基因 註解重疊
-
ncRNA database (http://structuralbiology.
矩陣則是能清楚呈現特定基因是否具有
。 收錄基因共表
cau.edu.cn/PNRD) G7
該註解之功能。
現網絡分析資料所建構之資料庫,如
本文章以 等人於 年所發
Wu 2016
。 與 則分別收錄了來
ATTED-II G8 G9
表,蒐集抽穗後不同天數之高度休眠
自 篇期刊與液 液相分離之相關基因
458 -
性水稻品系 與輕度休眠性水稻品系
N22
集與資料庫。液 液相分離
- (liquid-liquid
、 之種子進行 分
Q4359 Q4646 RNA-seq
為 年後興起的新
phase separation) 2010
析,並利用活性氧化物 處理後
(ROS)
學門,主要在探討細胞內不具有細胞
32 -農業試驗所技術服務季刊.2022年6月.130期-生物資訊
所篩選出的 個 值小於 的 , ,選擇物種、匯入候選基因集後便 利
85 P 0.05 DEGs G9)
用
其資料型態包含基因名稱、倍數變化 可進行分析。以本次匯入的水稻基因 P
l
、表現量上調 或下調 為例, 能接受的基因名稱為
(log2) (up) (down) PlantGSAD
a
及P值,以這85個DEGs進行PlantGSAD LOC_Os01g01010,若基因名稱版本為 n
t
基因富集分析之示範操作,探討這 ,可以利用 水稻資
85 Os01g0100100 rap-db G
個 與水稻種子休眠性之間的關聯 料庫中的 S
DEGs ID Converter (https://rapdb.dna.
A
性。第一步,進入 頁面後, 進行共用編號
ANALYSIS affrc.go.jp/tools/converter) D
資
勾選欲進行分析的富集資料庫類別 的轉換。結果方面,本文章以 為範
(G1- G3
料
庫
表一、PlantGSAD中9大類別 (G1-G9) 與其包含之物種、基因、功能基因集與主要資料庫來源。引 平
用與修改自Ma et al. (2021) 台
對
類別 基因集描述 包含物種 包含基因集 包含基因 主要資料庫
農
業
G1 基因本體論 44 105,339 878,035 AgriGOv2/Phytozome
基
G2 其他本體論 4 9,444 65,958 Planteome 因
體
G3 路徑調控 39 90,526 1,174,307 KEGG
資
G4 基因家族 41 8,137 142,393 CAZy database 料
基
G5 染色質狀態 5 495 427,194 PCSD database
因
G6 轉錄因子與微核醣核酸 9 5,454 90,424 Plant Cistrome Database 群
富
G7 基因共表現網絡分析 10 14,220 82,020 ATTED-II
集
G8 期刊文獻 16 1,950 110,503 458 literatures 分
析
G9 液-液相分離 31 442 229,904 DrLLPS
之
簡
表二、利用85個DEGs進行GSEA結果。由左至右詳細列出了85個DEGs參與了KEGG中的哪個功能
介
基因集、該功能基因集共有幾個基因、功能基因集之描述、輸入DEGs與該功能基因集有多少重疊、
P值與FDR。
-農業試驗所技術服務季刊.2022年6月.130期- 33生物資訊
利
用
P
l
a
n
t
G
S
A
D
資
料
庫
平
台
對
農
業
基
因
體
資
料
基
因
群
富
集
分
析
之
簡
介
圖二、PlantGSAD操作介面簡介。(A) 輸入基因進行搜尋 (B) 輸入基因集進行搜尋 (C) 功能基因集詳
細資訊 (D) 輸入目標差異表現基因進行富集分析 (E) 視覺化圖表。引用自與修改自Ma et al. (2021)
34 -農業試驗所技術服務季刊.2022年6月.130期-生物資訊
例進行介紹。第一項結果如表二所示, 上平台選擇與日俱增,挑選適合農業研 利
用
85個DEGs顯著參與的調控路徑共有12 究人員的基因富集分析平台更顯重要。 P
l
個, 值由小到大排列前 名分別為穀胱 平台為 年架設之線上基
P 3 PlantGSAD 2021
a
甘肽代謝途徑 (glutathione metabolism)、 因組功能註釋資料庫,整合過去其他資 n
t
花生油酸代謝途徑 料庫之高等植物功能性基因注釋資料,
(arachidonic acid G
和過氧化體 。 並提供圖形化的操作介面與可輸出的視 S
metabolism) (peroxisome)
A
在種子發芽的過程中,會將脂肪分解以 覺化圖表,不失為農業研究人員深化研
D
資
提供為呼吸作用的原料,這一連串的代 究成果的一項新選擇。
料
謝途徑中會產生乙醛酸體,脂肪酸進入 庫
六、參考文獻
平
乙醛酸體進行 氧化作用與乙醛酸循環
ß- 台
兩個主要生化途徑後,形成四碳酸進入 Ma, X. L., H. Y. Yan, J. T. Yang, Y. Liu, Z. Q. 對
農
Li, M. H. Sheng, Y. X. Cao, X. Y. Yu,
細胞質中進行葡萄糖新生成。然而,當
業
發芽的種子照射到陽光後,子葉逐漸轉 X. Yi, W. Y. Xu, Z. Su. 2021. PlantGSAD: 基
因
a comprehensive gene set annotation
變成綠色,此時乙醛酸體會逐漸轉換為 體
database for plant species. Nucleic Acids 資
過氧化體 。 個 中有
(peroxisome) 85 DEGs
料
Res. gkab794.
個基因參與過氧化體的形成 基
5 (P-value =
因
Wu, T., C. Y. Yang, B. X. Ding, Z. M. Feng,
× , 個基因參與花生油酸代謝
4.2 10-6) 4 群
途徑 × ,同時出現這 Q. Wang, J. He, J. H. Tong, L. T. Xiao, 富
(P-value = 3.74 10-7)
集
L. Jiang, J. M. Wan. 2016. Microarray-
兩項代謝途徑足以證明這85個DEGs與種 分
based gene expression analysis of strong 析
子萌芽與休眠性有一定程度上的關聯。
之
seed dormancy in rice cv. N22 and
簡
五、結語 less dormant mutant derivatives. Plant 介
在基因表現量分析中,不論是微
Physiol. Biochem. 99:27–38.
陣列或 技術,都需要基因富集
RNA-seq Yi, X., Z. Du, Z. Su. PlantGSEA: a gene set
分析的輔助,對差異表現量基因進行
enrichment analysis toolkit for plant
功能性的分群。況且,隨著資訊設備軟
community. 2013. Nucleic Acids Res.
硬體的提升,可提供基因富集分析的線
41:W1, 98–103.
-農業試驗所技術服務季刊.2022年6月.130期- 35"
知識樹分類
消費者知識庫 > 農藝類
消費者知識庫 > 環境生態類
消費者知識庫 > 生命科學類
相關檔案下載
- 113 年9 月公告修正「枯草桿菌KHY8」農藥使用方法及其範圍113/11/05
- 113 年7 月公告與修正「亞滅培」等農藥使用方法及其範圍113/11/05
- 山陀兒颱風過後 本場技術服務團極力輔導農友復耕113/10/31
- 香茹採後乾燥及貯藏方法與抗氧化成分的關係113/10/31
- 113年11月主要作物病蟲害預測113/10/30
- 賀!臺灣蠶蜂昆蟲教育園區代表農業部榮獲「國家環教行動方案執行成果」特優獎 113/10/30
- 芋頭斜紋夜蛾之預防與監測113/10/30
- 農用紙膜環保可分解實踐循環農業 113/10/30
- 番茄栽培管理暨病蟲害整合性防治講習會精彩回顧 113/10/30
- 農業張老師-果園蟻害防治及田間診斷活動紀實113/10/30