網絡分析技術於農業基因體資料之應用-以水稻為例.pdf
生物資訊
網絡分析技術
網
絡
於 分
析
技
農業基因體資料之應用-以水稻為例 術
於
農
業
農試所作物組 吳東鴻 賴牧謙 基
因
一、前言 體
資
隨著資訊科技與農業生物技術不斷的發展,快速累積了大量作物的基因體資訊, 料
之
如蛋白質體學、轉錄體學、基因表現與次世代定序等重要性狀遺傳調控數據,產出速
應
度快且成本持續下降。其中生物資訊學可將數據有效地轉換成資訊,並轉化為知識。 用
︱
然而不同體學的在串聯與整合上有一定困難,研究者欲以宏觀角度通盤檢視巨量基因 以
水
體資料實屬不易。據此,網絡分析的概念應運而生。
稻
網絡分析 (network) 的概念從20世紀中期開始興起,基於網絡理論分析複合層次 為
例
資料的資料分析方法,針對資料表單藉由不同的演算法梳理出串聯節點的關聯性,
並以視覺化的網絡圖呈現重點脈絡趨勢。本篇將導論網絡分析技術以及在植物科學
領域已建立的入口平台,並以水稻基因體資料為案例操作,分別在 與
RiceNet (v2)
等 個線上平台操作流程,導入視覺化工具剖析巨量複合基因體資料
STRING (v11.5) 2
的重要樞紐因子與脈絡趨勢,有助於農業從業人員深化科研成果與探索跨域加值的
可能性。
二、網絡分析原理介紹
相較於制式的單件表格資料,網絡分析圖利用圖形與線條串聯多層資料集,以
視覺化展示整體資料的架構與彼此間的關聯性。網絡由節點與連線粗細所構成,其
網絡區塊大小根據節點的數量與連線數目決定。節點依據研究目的,可以由基因、蛋
白質或生理調控路徑所組成,連線粗細代表兩節點之間的關聯性強弱。以蛋白質間
交互作用網絡為例,每一個蛋白質代表一個節點,而節點之間的連線代表兩個蛋白
質之間具有交互作用。而網絡的拓樸性質 可由中心性指標衡量,其探討在
(topology)
幾何圖形或空間中連續改變其形狀後還能保持不變的性質,著重物體間的相對位置
作 者:吳東鴻副研究員
連絡電話:04-23317106
-農業試驗所技術服務季刊.2022年3月.129期- 11生物資訊
網 而不考慮其大小與形狀,常見的衡量指 芥網絡功能分析公開平台。另外平台版
絡
分 標為度數 (degree) 和群聚係數 (clustering 本的升級通常是更換新的核心演算法與
析
coefficient)。度數的定義為該節點的與其 納入新的同源基因資料集,在推演未知
技
術 他節點的總連線數;群聚係數則是用來 序列的功能性時,可參考兩條基因序列
於
描述網絡圖中節點與節點之間關係的緊 的相似性,若達 以上就視為同源基
農 80%
業 密程度,其數值介於 0 到 1 之間。 因,因此藉由其他物種已知功能的基因
基
因 網絡分布的結構特性亦可由度數與 連結阿拉伯芥的同源基因,進而推論該
體
群聚係數判斷,若各節點的群聚係數趨 阿拉伯芥基因可能具備哪些功能,豐富
資
料 近於1,則代表網絡的內部結構相當緊 阿拉伯芥的網絡功能資料庫更趨完整。
之
密,具有完全網絡 的
應 (complete network) 第一代的 AraNet 平台,除了利用阿拉伯
用 趨勢,但節點若過於密集,會導致可閱
芥前人文獻之 微陣列晶片資料庫
︱ DNA
讀性降低;反之,若各節點的群聚係數
以 外,還納入了 個由人類、蚯蚓、酵母
24
水 趨近於 ,則表示網絡的內部結構相當鬆
0 菌之直系同源基因所建構而成的關聯性
稻
為 散,呈現無尺度網絡 (scale-free network) 資料庫,總計 個基因能涵蓋
19,647 73%
例
的性質,但若節點與節點之間連線數太
的阿拉伯芥基因體。相隔四年,進階版
少,則能從中獲取的資訊含量較低。其
本的 平台,除了採用機器學
AraNet(v2)
中度數較高的節點稱為樞紐節點
(hub
習為核心演算法之外,擴充納入斑馬
,通常是相當重要的基因、蛋白質
node)
魚、果蠅、線蟲之直系同源基因至網絡
或者是生理調控路徑。
資料庫中,使阿拉伯芥總體基因體覆蓋
三、高等植物網絡分析平台簡 率上升至 84%。
介 在水稻方面,同一個團隊的
Lee
至今已有許多高等植物網絡分析 等人也在 2011 與 2015 年分別建立了
平台可供使用,如阿拉伯芥的 、 和 兩個水稻網絡分
AraNet RiceNet RiceNet(v2)
大豆的 、玉米
SoyNet
的 及水稻的
MaizeNet
平台 圖一 。由
RiceNet ( )
於阿拉伯芥是開花植物
中研究完整度最高的模
式植物,因此網絡架構
也最早被建立, 等
Lee
人相繼於 年與
2010 2014
圖一、高等植物網絡分析平台。(A) 阿拉伯芥網絡分析平台;(B)
年分別建立 和
AraNet 玉米網絡分析平台;(C) 大豆網絡分析平台;(D) 水稻網絡分析平
兩個阿拉伯 台。
AraNet(v2)
12 -農業試驗所技術服務季刊.2022年3月.129期-生物資訊
析平台。 的建立利用水稻前人文 分數,分數越高代表該基因與特定性狀 網
RiceNet
絡
獻之 DNA 微陣列晶片資料,並蒐集 24 之關聯程度愈高,反之愈低。 分
析
個由人類、蚯蚓、蒼蠅、酵母菌之直系
四、RiceNet(v2) 與 STRING(v11.5) 技
同源基因所建構而成的關聯性網絡資料 術
平台操作簡介
於
庫,建構模式參照 AraNet,總計 41,203 是一個免費公開的 農
RiceNet(v2)
業
個基因能約能涵蓋 50% 的水稻全基因 網路平台,主要功能在於利用網絡分 基
因
組。進階版本的 RiceNet(v2) 平台不僅 析進行水稻基因清單優化,資料處理
體
網絡基因涵蓋率達到 ,亦新增了 流程如圖二所示。首先,進入主頁面 資
70.1%
料
線蟲、果蠅和斑馬魚之直系同源基因所 後點選Gene prioritization後有兩個選 之
構成之蛋白質間交互作用網絡。網絡分 項,分別為OptionⅠ:Gene prioritization 應
用
析平台功能方面,則是新增了基因優化 based on network direct neighborhood 與 ︱
以
Ⅱ
(gene prioritization) 之新功能。基因優化 Option :Gene prioritization based on 水
的目的在於依據該基因與特定性狀的關 context associated hubs,研究者依據其 稻
為
需求選取相對應的分析工具。假若研
聯性,透過演算法給予每一個候選基因 例
圖二、RiceNet(v2) 平台資料分析架構流程圖。(A) 方向1: 尋找新的目標基因;(B) 方向2: 找出參與
其中的樞紐基因;(C) 候選基因匯入;(D) 差異表現基因集匯入。
-農業試驗所技術服務季刊.2022年3月.129期- 13生物資訊
網 究者的目的在於利用輸入的候選基因
involved in osmosensory signaling pathway
絡
分 (candidate genes) 尋找新的目標基因,可 與response to hypoxia等訊息傳遞與生理
析
以利用第一類型操作 Ⅰ;若研究 調控路徑。
(Option )
技
術 者的目的在於利用候選基因找出參與其 OptionⅡ方面,輸入的基因集合
於
中的樞紐基因 ,則可以選擇 主要由差異表現基因
農 (hub genes) (differentially
業 第二類型操作 Ⅱ 進行分析。 所構成,如
(Option ) expressed genes, DEGs) RNA
基
第一類型操作 Ⅰ 方面, 定序資料和定量及時逆轉錄聚合酶連鎖
因 (Option )
體
進入後須輸入欲進行分析之特定 反應資料。基因名稱和輸入基因集合大
資
料 性 狀 的 候 選 基 因 集。其中,基 因 小規定與OptionⅠ相同。以平台所提供
之
名稱 須 符 合 編 號 共 用原 則,如 稉 的稉稻白葉枯病抗性基因Xa21所調控之
應
用 稻 (Oryza sativa spp. japonica) 須以 範例DEGs集合為例進行分析。針對輸入
︱
以 LOC_Os01g01010或Os01g0100100; 基因對應的P值由小到大排列,P值越小
水 秈稻 (Oryza sativa spp. indica) 則是 代表該基因與其他基因的關聯性越高,
稻
為 BGIOSIBCE000001,其唯一的限制為 在特定生理調控途徑的地位愈顯重要,
例
輸入基因數大小不能超過 個。以平 愈有可能是樞紐基因。表格中亦提供該
500
台所提供的逆境反應分子互動組 基因所參與之 生理調控路徑,以利研
(stress GO
範例基因為候選基 究者進行分析。
response interactome)
因集,進行第一類型操作網絡分析之示 在視覺化的網絡圖分析方面,由
範操作。第一項結果為接受者操作特徵 於 平台是利用
RiceNet(v2) Adobe flash
曲線,用來判斷網絡模型的準確性,其 產生網絡圖,但主流網頁瀏覽器
player
統計檢定數值為曲面下面積 如 、 都已在 年 月開始不
(area under ( Chrome IE) 2021 1
,和綠色對角線面積 相 支援 ,因此
curve, AUC) 0.5 Adobe flash player RiceNet(v2)
比,紅色曲線的面積通常大於 ,數 平台無法順利顯示網絡圖。據此,筆者
0.7
值越大代表網絡模型具有越好的鑑別 推薦使用
STRING(v11.5) (https://string-
能力。第二項結果為利用輸入基因集合 平台產製網絡圖。
db.org/) STRING(v11.5)
找出的新基因。透過基因優化後所找出 為一個線上蛋白質 蛋白質交互作用網絡
-
的新基因依據和輸入基因集合的總關 平台兼資料庫,最新的版本
version 11.5
聯性 得分由高至低 於 年 月更新,蒐集來自 個物
(total connectivity) 2021 8 14,094
排序,第一名的基因Os03g0285800的 種,67,592,464 個蛋白質共20,052,394,042
總關聯性得分為 。除此之外,表 筆蛋白質交互作用資料。
42.28 STRING(v11.5)
格中還會詳列出該基因所參與基因本 具有圖形化的操作介面,輸入資料的格
體論 (gene ontology, GO) 之生理調控路 式可以是基因名稱 (如Os01g0146000)
徑,如Os03g0285800參與MAPK activity 或者是蛋白質名稱 (如CDC15),平台則
14 -農業試驗所技術服務季刊.2022年3月.129期-生物資訊
會一律轉換成蛋白質並計算關聯性。 五、結語 網
絡
STRING(v11.5) 平台計算關聯性的來源從 在這資訊爆炸的21世紀,基因體分 分
析
KEGG (Kyoto Encyclopedia of Genes and 析工具種類多樣、精確度高且成本大幅
技
Genomes) 等資料庫與實際上進行複合蛋 降低,根據美國國家衛生研究院統計, 術
於
白質純化後確認其真實狀況來進行整合 全基因體定序費用自2008年的100萬美 農
與驗證,亦利用發表文獻進行整理。其 金,相隔十年後的 年只需要 千元 業
2018 1
基
中,不同粗細的連線表示蛋白質間關聯 美金即可完成。網絡分析技術面對龐大 因
體
程度的強弱,不同顏色則代表來自不同 的基因體大數據抽絲剝繭,以條理分明
資
資料庫的驗證 (圖三)。產生的結果可以 的圖形來闡釋生物體複雜的生理調控機 料
之
依據研究者需求的格式進行輸出,如高 制,對農業研究人員來說不失為一項新
應
解析度網絡圖片、蛋白質序列資料等。 興的研究利器。 用
︱
以
水
稻
為
例
圖三、蛋白質-蛋白質交互作用網絡圖。其中,節點代表蛋白質;連線的粗細代表關聯性的高低,越
粗代表關聯性越高,反之越低。
-農業試驗所技術服務季刊.2022年3月.129期- 15
知識樹分類
消費者知識庫 > 生命科學類
相關檔案下載
- 花蓮區農情月刊--水稻害蟲黑椿象 預防大作戰113/10/25
- 精準育種在蔬菜產業之應用與潛力113/10/18
- 苗栗縣友善環境耕作政策推動情形113/10/15
- 苗栗區農業專訊-桑白皮之利用113/10/08
- 苗栗區農業專訊-蜂箱材質及結構之演進113/10/08
- 夏日螢螢來作客~螢火蟲體驗活動大成功!113/09/30
- 山陀兒颱風逐漸逼近臺灣 臺東農改場籲請農友強化防颱措施 並注意焚風發生113/09/30
- 深層施肥減碳排 友善環境增產量 臺東農改場舉辦水稻田利用深層施肥技術施用緩效性肥料示範觀摩會113/09/27
- 圓包牧草乾燥機效能評估及與含水率、重量關係之探討113/09/23
- 飼糧添加機能性油脂對阿爾拜因山羊泌乳性能與羊乳脂肪酸組成之影響113/09/23