2002年3月27日

生物資訊想解決什麼問題?


未經原作者同意,請勿任意轉載,謝謝。

--

生物資訊有很多有趣的問題,在這裡為大家簡單地介紹一下。我必須先聲明,並非所有的問題都
是「資訊化」的問題;
有些問題用生物方法來解決會比較好,有些問題用統計方法來解決會比較好。
在此我只是列出一些主要的議題。如果我漏掉一些重要的問題,或是我對所列出的問題認知有誤的話,
請大家多多包涵並且不吝指正,謝謝。

不管是 DNA、RNA 或是蛋白質,通常大多表示成序列的形式:
DNA 與 RNA 是核苷酸序列 (nucleotide sequence),而蛋白質是氨基酸序列 (amino acid sequence)。

因此,與序列有關的分析就變成主要的議題。
可想而知,資訊科學長久以來研究的字串演算法就很可能派上用場了。
因為我們可以將核苷酸或是氨基酸視為字母,而 DNA、RNA、與蛋白質序列就可以看成字串了。

下列的問題是我隨想隨寫的,並沒有絕對的先後次序與重要性的差異。

問題一. 序列相似度 (sequence similarity)
任給兩段序列,他們相似程度為何?對於 DNA 序列來說,相似程度就是將核苷酸一個一個互相比對,
看看相符的數量有多少個。但是對氨基酸序列來說就比較複雜了。
我們當然可以用逐一比對氨基酸的方式來定義其相似度。但是,
因為蛋白質的功能決定於形狀 (我們姑且認同這個假設),所以,對於兩段氨基酸序列來說,
我們通常會比較好奇他們在形狀上的相似度。這一點會讓問題的困難度提升,
因為結構在空間上是可以旋轉的,我們得先找到彼此最適合的空間位置才能進行比對。

問題二. 序列排比 (sequence alignment)
在很多情況下,我們會設法將序列對齊,然後看看他們的相似程度,藉此作一些分析。例如,
將兩串 (甚至是一堆) 序列對齊排好,看看他們的相似度 (問題一為我們提供相似度的量度方式),
然後判斷他們是不是具有親源關係。

呃?對齊排好,這有什麼難?

問題就出在:序列在演化過程會發生突變。突變的型態可能是某個核苷酸/氨基酸由甲變成乙(mutation)、
多出一個核苷酸/氨基酸、或少一個核苷酸/氨基酸 (insertion/deletion)。我們認為自然法則是:
突變發生的情況越少越好。因此,我們希望讓序列對齊之後分數盡量高一點 (相似度越高越好)。
這就必須將突變的情況考慮進去,而不是單純地從頭比到尾。例如,AACT 與 AAT 相比。
AACT 與 AAT 直接比對的分數會比較低 (錯兩個位置),而 AACT 與 AA_T 比對的分數會比較高 (錯一個位置)。

問題三. 尋找 motif (motif finding)
在整段序列上,會有一些小片段,他們會影響或調控基因/蛋白質的形成、表現量、或是功能。
這類短短的序列片段就稱為 motif。找到越多的 motif,對我們瞭解生物機制的幫助就越大。
問題是這些片段基本上都不長,加上序列又有異變的潛在風險,
所以我們很難確定所找到的片段到底是不是真的 motif。

問題四. 尋找基因 (gene finding/prediction)
人類的雙股 DNA 序列中超過三十億組核苷酸,據估計差不多只有 3% 會形成基因。
我們需要有效的方式來幫助我們找出這些基因在 DNA 序列中的位置。雖然不能說是大海撈針,
但是可想而知這個題目是具有相當的難度的。

問題五. 序列接合 (sequence assembly)
生物序列都很長,我們很難針對完整的序列作分析研究,
比較常見的作法就是先用一些酵素 (enzyme) 將這些序列切得碎碎的。我們再去對這些碎片做研究。
雖然說是碎片啦,通常也都有上百組核苷酸或氨基酸。但是我們最終的目的總是要看整段序列,
因此必須有辦法將這些細碎的片段接合起來。這問題多難?想想幾百萬片的拼圖就知道了。

問題六. 演化樹建構 (phylogenetic tree)
如果我們手邊有一大堆序列,我們能不能根據這些序列的內容來畫出涵蓋這些序列的「家譜」?
我們如何判斷哪些序列之間有親源關係?有多親?我們的原則是:從始祖到最終物種,
異變的次數發生越少越好。異變通常表示有新物種的出現 (啊,偷偷告訴各位,人跟老鼠與豬像得很)。

問題七. 蛋白質結構預測 (protein structure prediction)
其實任給一段蛋白質序列,生物學家可以用 X 光繞射或核磁共振 (NMR) 求出其結構,
並且準確性還蠻高的。但是,用這類的生物方法成本較高且耗費時日。我們因此會想偷懶:
有沒有辦法直接從序列就可以猜出其結構?其實也不用很準,五成就好了,
就已經可以大幅提昇我們對蛋白質的瞭解。但是可想而知這是很難的問題。
我們將立體的三維結構壓縮成一維結構,原本就會喪失一些資訊,
加上很多參數變得無法考量了 (例如,分子間的吸引力)。

問題八. 位置對應 (physical mapping)
囿於生物技術,目前我們能處理的序列都不會太長,了不起幾百組核苷酸或氨基酸。但是,
我們希望能對序列做巨觀的研究,因此,我們就設法在完整的序列上設下一些標記,
藉此畫一份序列的「地圖」。這個問題要處理的就是:我們所研究的一小段序列,
到底在地圖上的那個位置?

問題九. 基因體重組 (genome rearrangement)
一個物種的完整 DNA 序列就是其基因體。生物學家曾發現以下現象:有些親源關係很接近的物
種,
他們的序列非常的類似,但是他們的基因所在位置順序卻不同。
這有可能是染色體在細胞分裂前的 crossover 所造成的影響。
我們會好奇一個物種的基因體是如何經過重組之後而形成另一物種的基因體。
這時我們所研究的已經不是單一的核苷酸異變了,而是一整段功能區段是如何轉移的。

問題十. 基因表現 (gene expression)
蛋白質的數量遠超過基因的數量。因此,我們可以得知,一個基因應該可以轉換成一種以上的蛋
白質;
換言之,一個基因可以有一種以上的表現方式。有些蛋白質在幼兒時期才會出現,
有些蛋白質在某種器官發生病變時才會出現,根據這一類的資訊,
如果我們可以瞭解基因是如何表現的話,對於醫學或生物上都會有很大的幫助。

問題十一. pathway
能徹底瞭解一個基因是好事;但是如果能夠瞭解一連串的生化反應中所有參與的基因,
那更是了不起的事情。這樣的生化反應脈絡,就稱為 pathway。以前因為生物技術上的限制,
我們很難同時觀察與控制多個基因的相互反應及變化。但是,現在有新的技術來支持這項工作了,
那就是生物晶片 (就是我們說的 gene chip 或是 microarray) 的出現。能夠瞭解多個基因的互動,
才能算是真的接近生物資訊的最終目的–製藥。

問題十二. 資料庫搜尋 (biological database search)
因為基因體與蛋白體的資料量實在是太大了。所以目前有很多大型的生物資料庫,
有的存 DNA 序列,有的存蛋白質序列,還有的存蛋白質 3D 結構等等。因此,
我們必須有一個搜尋資料庫的機制。這個問題的難度在於這類序列的搜尋已經不是 exact match 了,
我們必須把相似的、可能的序列全部挑出來,並且速度還要夠快,因為資料很多;
加上有些資料庫的資料是未經整理的,這更加添了搜尋的難度。