結構變異(Structural variants, SVs)泛指基因體中長度超過 50 bp 的變異,包含插入 (insertion)、刪除 (deletion)、易位 (translocation) 與倒置 (inversion) 等類型。雖然人類的結構變異總數低於小片段變異,單一變異可能涵蓋影響多個基因片段,影響生理功能甚或引發疾病,使之成為臨床檢測的潛在標的。

隨著定序技術成熟,偵測結構變異的演算法推陳出新。為了能客觀評估這些方法的效度,Genome in a Bottle (GIAB) 以 HG002 樣本,採用多項定序與分析技術,並且透過親屬資料交叉驗證,建立了結構變異的標準資料。

本文將介紹如何使用 Truvari 基於 GIAB 標準資料來評估結構變異的分析效度。除了提供具體的操作方式外,也探討實際分析時可能遇到的技術挑戰。

閱讀全文 »

可能我的童年很乏味吧?最近每次接觸過好作品之後都很羨慕現在的小孩,因為在他們成長期間就已經有《少女樂團 吶喊吧》、《孤獨搖滾》、《MyGo》、《Cyberpunk Edgerunners》、《學姊是男孩》、《模擬後宮體驗》、《勇氣爆發》、《我內心糟糕的念頭》、《星靈感應》、《江戶前精靈》、《暴食的怪獸公主:惑星美食之旅》、《祈願詩篇》、《天國大魔境》、《佐賀偶像是傳奇》、《動物朋友》、《敗北女角太多了》、《妹相隨》、......

還有好多、好多、好多想要更早接觸的作品,因為它們既然能帶給現在的我勇氣,也肯定能鼓舞小時候沒那麼堅強的我。更重要的是,這樣我才有充分的時間把它們忘掉,然後重新體會一次。

閱讀全文 »

貝琳達.傑克的《閱讀》聚焦閱讀的媒介、形式與影響。作者以口述與書面之爭為引,鋪陳閱讀行為潛在的反抗特質。接著,介紹印刷術發展前後,閱讀內容與行為的變化。另外,也分別探討了閱讀在文學、政治和形式層次的議題。各章節皆有新鮮與豐富的歷史案例,提供讀者當代閱讀的想像。

閱讀全文 »

去年玩完《拔作島 1 & 2》之後,深深體會視覺小說的魅力,陸續又玩了《心跳文學部》、《沙耶之歌》、《你和她和她的戀愛。》、《享受這間餐廳吧》、《Highway Blossoms》和《為主人獻上聖羅的甜蜜侍奉》,跟著主人翁們走過驚悚的、純情的、甜蜜的、熱血的、惆悵的故事。

沒錯,我把玩過而且大力推薦的作品都列出來了。以前一直覺得只是頻頻按 Enter 到底有什麼好玩的?實際體驗才明白,視覺小說帶來的情感衝擊其實不輸其他媒體。

閱讀全文 »

先前製作 Tabletop simulator 的 MOD 時,累積了一些電子桌遊自動化的想法。Tabletop simulator (以下簡稱 TTS)提供了近似真實桌面的環境,允許玩家建立紙牌、公仔、token等桌遊配件。TTS 也設計了抽牌、堆疊、擲骰、彈射等與配件互動的行為,因此從經典的撲克牌、疊疊樂、到銀河彈彈樂等利用不同互動機制的桌遊都能在TTS 內重現。

閱讀全文 »

hidden state prediction (HSP) 是一種基於分子演化關係來預測未知基因功能的演算法 (Zaneveld & Thurber, 2014),它能用於重度仰賴定序技術的微生物生態研究,提供性狀或功能面的資訊 (Guittar et al., 2019)。

儘管存在這樣有力的生態學研究工具,卻還沒有統一的方式來驗證其有效範圍。在應用 HSP 的研究中,Guittar et al. (2019) 沒有考量預測誤差,Langille et al. (2013) 沒有界定適用範圍。因此,我想以他們的研究為基礎,設計能評估預測工具有效範圍的方法。

閱讀全文 »

在微生物增幅子分析當中,DADA2 是常用於校正 illumina 定序錯誤的軟體。在使用這軟體前,需要移除和裁切低品質的定序產物,確保資料在可校正的範圍之內。對於讀長 300 bp 的 illumina 雙端定序產物而言,可以選擇的參數非常多。目前參數的選擇往往依據經驗或是直接套用預設值,但是所以我想設計一種,能依據資料特性來選擇最佳參數的方法,改善分析過程的解釋性和把握度。

閱讀全文 »

基因體結構會影響變異分析的效度。舉例來說,在 homopolymer 或是 segmental duplicate 區域,依賴 PCR 的 Indel 分析準確性往往低於其他區域 1。因此,若能針對基因體不同區域個別評估效度,將有助於了解技術或流程的限制,進而提升效度分析的鑑別度。

為此,GIAB (Genome in a Bottle consortium) 維護了一系列 BED 檔,記錄基因體上的功能性區域、重複性區域以及高度多樣性區域等。用戶可以使用 hap.py 等工具,配合這些 BED 檔來評估其分析流程在各個區域的表現。

閱讀全文 »

VCF 檔中的 ##contig=<ID=*,lenth=*> 記錄了參考基因體所有染色體的名稱和長度等資訊,而 CHROM 欄位則標示變異所在的染色體。目前,染色體名稱有 UCSC (chr + 染色體編號,例如:chr1chrX)和 Ensembl (沒有前綴,僅有染色體編碼,例如:1X)兩種慣例。執行分析時, 如果輸入的 VCF 檔和對應的參考資料採用相異命名慣例,往往會導致分析結果失真。

舉例來說,GIAB 提供的 VCF 檔是評估變異分析常用的資料。這些 VCF 檔採用 Ensembl 慣例,如果拿 UCSC 慣例的 VCF 檔和它們比較,程式會以為沒有找到這些變異。因此,執行分析時,常常要調整染色體名稱,確保分析結果正確。

本文簡介使用 linux sed 和 bcftools 轉換 VCF 檔染色體命名慣例的方式。

閱讀全文 »
0%