如何界定細菌性狀預測演算法的有效範圍？

發表於 2024-12-15

hidden state prediction (HSP) 是一種基於分子演化關係來預測未知基因功能的演算法 (Zaneveld & Thurber, 2014)，它能用於重度仰賴定序技術的微生物生態研究，提供性狀或功能面的資訊 (Guittar et al., 2019)。

儘管存在這樣有力的生態學研究工具，卻還沒有統一的方式來驗證其有效範圍。在應用 HSP 的研究中，Guittar et al. (2019) 沒有考量預測誤差，Langille et al. (2013) 沒有界定適用範圍。因此，我想以他們的研究為基礎，設計能評估預測工具有效範圍的方法。

使用 HSP 需要準備譜系樹和性狀註解。以下圖為例，枝頭上的數字表示某種性狀的數值，標示問號的方格表示未知性狀的基因。HSP 能透過其他數值已知而且親緣關係相近的基因來推論其數值。

雖然我未必掌握了 HSP 的運算細節，還是能利用基本原則：預測的準確度會隨可利用的資訊遞減。如果未知性狀的基因和其他枝頭的親緣關係很遠，那麼預測的效度應該也不會太好。基於這種原則，我們可以把 HSP 當作一個黑箱，利用既存的譜系樹來了解預測能力和既有資訊的關係。

首先，我先指定一個已知性狀的基因，再由近到遠逐步移除親緣關係相近的基因。每次移除資料，都使用 HSP 預測指定基因的性狀值，並且計算預測值與觀察值的差異，取得預測誤差和資訊量的關係。

原則上，資訊損失量與預測誤差為正相關，而這關係的模式可能是線性、指數成長或是邏輯式分布等，可以建置對應的方程式來描述兩者的關係。接著，比較演算法預測與隨機預測的誤差值，兩條線交點的截距，即是預測演算法的有效範圍，在這範圍以內，演算法都優於隨機猜測。隨機猜測的方式可以任意挑選兩個節點為代表。

例如下圖左邊的示範資料中，我發現預測錯誤率和資訊量呈線性關係，再比較隨機預測的誤差，便能得到一個範圍，當資訊量在範圍之內時，可以確保演算法的預測比隨機猜測可靠。

Guittar et al. (2019). Trait-based community assembly and succession of the infant gut microbiome. Nature communications, 10(1), 1-11.

Langille et al. (2013). Predictive functional profiling of microbial communities using 16S rRNA marker gene sequences. Nature biotechnology, 31(9), 814-821.

Zaneveld & Thurber. (2014). Hidden state prediction: a modification of classic ancestral state reconstruction algorithms helps unravel complex symbioses. Frontiers in microbiology, 5, 431.