長鏈非編碼 RNA (lncRNA) 可以順式或反式發(fā)揮多種功能,包括調節(jié)基因轉錄和 RNA 剪接、調節(jié) RNA 和蛋白質的活性或豐度以及組織核結構域。它們廣泛參與細胞命運編程/重編程、分化、發(fā)育,尤其是與人類疾病相關。盡管近年來高通量測序技術的快速發(fā)展已經鑒定了數十萬種人類 lncRNA,但其中只有一小部分得到了很好的表征。
今天我們來講一個關于lncRNA的數據——LncExpDB ( https://bigd.big.ac.cn/lncexpdb),該數據庫由中國國家生物信息中心和中國科學院北京基因組研究所團隊搭建,數據庫相關文章于2020年10月12日以“LncExpDB: an expression database of human long non-coding RNAs”為題在線發(fā)表于Nucleic Acids Research雜志(IF=11.501)。
LncExpDB提供101293個人類lncRNA基因(對應于331244個轉錄本)全面且高質量的集合。它包含了這些lncRNA在337個生物學條件下的豐富表達譜,這些條件屬于九個重要的生物學背景,涉及正常組織/細胞系、癌細胞系、亞細胞定位、外泌體、細胞分化、植入前胚胎、器官發(fā)育、晝夜節(jié)律和病毒感染. 此外,LncExpDB 識別了25191個特征lncRNA 基因,并表征了24508個lncRNA 基因和17345個mRNA基因之間的28443865個共表達相互作用。
基于跨多個生物環(huán)境的綜合表達譜,LncExpDB 具有增值管理和分析功能,可提供可靠轉錄的 lncRNA 基因。因此,我們發(fā)現 92 016 個 lncRNA 基因(90.8%)得到可靠轉錄證據的支持(表達值閾值為 1 TPM),在九個生物學背景中分布不均。在可靠轉錄的基因中,大多數 (82.6%) 在至少兩種生物環(huán)境中表達,3318 個 lncRNAs (3.6%) 在所有 9 種環(huán)境中表達。
LncExpDB 表征了在特定細胞系/組織中特異性表達、在癌癥或病毒感染背景下差異表達、在特定細胞器中富集、在細胞分化或胚胎/器官發(fā)育過程中動態(tài)表達或隨晝夜節(jié)律周期性表達的特征 lncRNA 基因韻律?;诖罅縍NA-seq數據,共鑒定出25191個特征lncRNA,其中器官發(fā)育7922個,正常組織/細胞系7498個,亞細胞定位5292個,植入前胚胎4343個,癌細胞系2907個,1740個晝夜節(jié)律,外泌體中為 1538,細胞分化中為 1232,病毒感染中為 985。
為了促進對特征 lncRNA 分子機制的深入研究,LncExpDB 通過共表達網絡預測 lncRNA-mRNA 相互作用。LncExpDB 總共包含 28 443 865 個預測的 lncRNA-mRNA 相互作用;這些相互作用中的大多數 (96.4%) 存在于一種生物環(huán)境中,并且在五種環(huán)境中發(fā)現了 12 種相互作用。
LncExpDB 的中心實體是 lncRNA 基因,每個 lncRNA 基因都有一個對應的頁面,由兩個主要部分組成,即基本信息(例如基因符號、基因組上下文、長度、外顯子數、分類和對應的轉錄本信息)和表達譜。對于每個 lncRNA,LncExpDB 在所有收集的條件下分析其基因表達譜,并以交互方式可視化其表達譜。它以結構化的方式組織所有相關數據,以促進基于基因、數據集和基于上下文的數據瀏覽/搜索。它可以在一頁中可視化特定 lncRNA 的各種表達譜,促進對特征基因及其相關共表達網絡的探索,并提供有用的功能來捕獲不同生物條件下的表達情況。