sobota, 27 listopada 2021

Fazowanie DNA - pseudofazowanie (fazowanie odwrócone) w genealogii genetycznej

 Ostatnio odbyłam ciekawą rozmowę na anglojęzycznym forum dotyczącą fazowania (phasing) wyników DNA. 

"Przetestowałem mamę i tatę - czy ma sens testować także siebie?"

 Klasycznie o fazowaniu mówi się w kontekście porównywania wyników testu DNA dziecka do jednego lub obu jego rodziców. Poprzez porównanie np. z ojcem, można podzielić DNA dziecka na połówkę (fazę) ojca i matki. W ten sposób można potem na przykład sprawdzać, czy dopasowanie DNA do dziecka jest od strony ojca lub matki, albo czy też jest "fałszywym match'em" (gdzie np. kawałek od ojca i kawałek od matki tworzą dłuższy fragment przypadkowo identyczny z kawałkiem od danego dopasowania). O fazowaniu z przykładami szerzej pisał po polsku Eryk Grzeszkowiak na swoim blogu genealogia genetyczna.  

Moja niedawna rozmowa dotyczyła fazowania DNA rodzica z użyciem DNA dziecka (po angielsku zwane reverse-phasing lub pseudo-phasing). Brzmi dziwnie? Zamysł jest następujący. Poprzez fazowanie rodzica z dzieckiem (zamiast dziecka z rodzicem), można z grubsza podzielić DNA rodzica na połówki dziadka i babci i odsiać fałszywe dopasowania DNA. 

Każde dziecko dostaje od rodzica połowę jego DNA. Podobnie wnuk od dziadka statystycznie ma około 25% DNA, choć w praktyce może to być więcej lub mniej. Jest tak, bo dzielenie DNA rodzica na pół jest losowe, a z powodu zjawiska crossing over nie jest też tak, że zawsze dostajemy w całości dany chromosom (ani nawet jego pół!) tylko od dziadka lub tylko od babci. Poniżej przykład prawdziwej osoby porównanej do swoich dziadków i babć w narzędziu Chromosome Browser firmy FTDNA:

Niebieski i czerwony to jedna para dziadków (powiedzmy, że od strony matki), zielony i pomarańczowy - druga (dajmy na to, że od strony ojca). 

Jak widać, jest to dość przypadkowe - np. chromosom 3 przekazany przez matkę jest w całości* od osoby "czerwonej", a z kolei chromosom otrzymany od ojca 5 to miks osób "zielonej" i "pomarańczowej", gdzie crossing over zaszedł kilkukrotnie.

*mowa tu oczywiście o fragmentach sprawdzanych przez test FTDNA - bo nie jest to pełne sekwencjonowanie genomu.

Wracając do fazowania. Mając DNA dziecka możemy podzielić DNA rodzica na połówkę przekazaną potomkowi i nie przekazaną potomkowi. Ktoś mógłby się nawet pokusić o nazwanie jednej połówką babci, a drugiej - dziadka. Oczywiście nie wiemy, która jest która (a wręcz możemy być pewni, że każda jest miksem babci i dziadka), ale przy odsiewaniu fałszywych dopasowań DNA nie ma to takiego znaczenia. Najważniejsze jest to, że jeśli w triangulacji pokazał się nam fragment wspólny dla rodzica i dziecka oraz dla match'a, ale zniknął on przy porównaniu z fazami rodzica, to raczej było to dopasowanie przypadkowe. Weźmy przykład:

Powiedzmy, że mamy następujące dane (pary zasad: ojciec, matka, dziecko)

TT CT TT

AC AC AA

AC CT CC

AG GG AG

GG AG AG

CC CT CC

AC AA AC

W pierwszej parze dziecko jest homozygotą TT, więc zarówno ojciec jak i matka przekazali T. 

W drugiej parze oboje rodzice również przekazali tę samą "literkę" - A. Fragment DNA rodziców zaczyna się nam dzielić na dwie różne części.

W ostatniej parze dziecko ma zasady AC. Matka jest homozygotą AA, więc C dziecka musiało przyjść od ojca. 

Fazując w ten sposób otrzymujemy:

Ojciec - faza 1: TACAGCC (przekazana dziecku)

Ojciec - faza 2: TCAGGCA (nie przekazana dziecku)

Matka: faza 1: CCTGGTA (nie przekazana dziecku)

Matka: faza 2: TACGACA (przekazana dziecku)

Załóżmy teraz, że mamy takie dopasowanie DNA:

Dopasowanie: CT / AA / CC / AG / GG / CC / AC

Porównajmy je z dzieckiem:

TT / AA / CC / AG / AG / CC / AC

[-][x] / [x][x] / [x][x] / [x][x] / [-][x] / [x][x] / [x][x]

gdzie [x] = zgodność, [-] = niezgodność

Strony z wynikami DNA pokazałyby nam go jako jeden długi wspólny odcinek.

Porównajmy go z matką:

CT / AC / CT / GG / AG / CT / AA

[x][x] / [x][-] / [x][-] / [-][x] / [-][x] / [x][-] / [x][-]

Długi odcinek, chyba coś jest na rzeczy?

Spójrzmy teraz na dane sfazowane:

Matka: faza 1 (nie przekazana dziecku):

[x] / [-] / [-] / [x] / [x] / [-] / [x] 

 Matka: faza 2 (przekazana dziecku):

[x] / [x] / [x] / [x] / [-] / [x] / [x] 

Oj, jednak match do matki był chyba fałszywy, bo na obu fazach mamy "dziury". Należy sprawdzić jeszcze stronę ojca, zanim całkiem odrzucimy match'a, ale wiemy już, że nie jest on od strony matki.

Ale co z crossing-over? Na szczęście statystycznie zachodzi ono wystarczająco rzadko (według jednej z encyklopedii internetowych jest to około 55 razy w męskiej i 75 razy w żeńskiej komórce rozrodczej - porównajmy to z ponad pół milionem SNPs testowanych w komercyjnych autosomalnych testach DNA), żebyśmy nie musieli się martwić tym, że z jego powodu nie odsiejemy jakiegoś fałszywego dopasowania.

Pseudo-fazowanie nie jest oczywiście 100% skuteczne w dzieleniu dopasowań DNA na "prawdziwe" i "fałszywe". Może się zdarzyć, że dany match był odsiany, choć tak naprawdę miał z nami (dalekiego) wspólnego przodka, albo że nie odrzuciliśmy jakiegoś przypadkowego dopasowania. Jednak jest to metoda bardziej wyrafinowana niż po prostu odrzucenie wszystkich dopasowań poniżej 7 (czy innej arbitralnej długości) centymorganów.