轉換 VCF 檔染色體命名慣例
VCF 檔中的 ##contig=<ID=*,lenth=*>
記錄了參考基因體所有染色體的名稱和長度等資訊,而 CHROM
欄位則標示變異所在的染色體。目前,染色體名稱有 UCSC (chr
+ 染色體編號,例如:chr1
和 chrX
)和 Ensembl (沒有前綴,僅有染色體編碼,例如:1
和 X
)兩種慣例。執行分析時, 如果輸入的 VCF 檔和對應的參考資料採用相異命名慣例,往往會導致分析結果失真。
舉例來說,GIAB 提供的 VCF 檔是評估變異分析常用的資料。這些 VCF 檔採用 Ensembl 慣例,如果拿 UCSC 慣例的 VCF 檔和它們比較,程式會以為沒有找到這些變異。因此,執行分析時,常常要調整染色體名稱,確保分析結果正確。
本文簡介使用 linux sed 和 bcftools 轉換 VCF 檔染色體命名慣例的方式。