ДНК-генеалогия от А до Т - страница 27
Что такое поправки на возвратные мутации, и как они рассчитываются?
Вклад возвратных мутаций вызывается тем, что часть мутаций вернулись в исходное положение предковой аллели, и таким образом мы наблюдаем некоторый недобор мутаций. Формулы для расчетов поправочных коэффициентов даны в работах[42], и в простейшем виде симметричной картины мутаций формула следующая:
где:
λ>obs>= наблюдаемое среднее число мутаций на маркер в рассматриваемой серии гаплотипов, λ – «истинное» среднее число мутаций на маркер, с учетом поправки на возвратные мутации.
Рассмотрим для начала единичный маркер. Например, в серии из 3466 гаплотипов гаплогруппы Rlb-L21 в маркере DYS393 (это – самый первый маркер в протяженных гаплотипах) наблюдаются 232 мутации. В таком случае наблюдаемое среднее число мутаций на маркер равно 0.067, и поправка будет минимальной, поскольку маркер «медленный», и мутаций наблюдается мало, как в «одну», так и в «другую» сторону от исходного положения аллели. Тем не менее, рассчитаем этот поправочный коэффициент, для иллюстрации. Полная запись расчета следующая:
Итак, наблюдаемое число мутаций на маркер 0.067, «истинное» 0.069, и отношение между ними в соответствии с формулой (до округления) равно
(1 + 1.069)/2 = 1.0345
Итак, поправочный коэффициент равен 1.0345, и при наблюдаемых 0.067 мутаций на маркер их на самом деле 0.069 мутаций на маркер, то есть всего на 3 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.
В случае маркеров DYS390 (второй по счету маркер в протяженных гаплотипах) поправка будет уже значительной, поскольку маркер «быстрый», и мутаций наблюдается много, как «вверх», так и «вниз» от исходного положения аллели. Рассчитаем этот поправочный коэффициент для того же случая 3466 гаплотипов, в которых наблюдается 1165 мутаций в данном маркере. Поскольку наблюдаемое среднее число мутаций на маркер равно 0.336, получаем, что поправочный коэффициент равен 1.1997. Полная запись расчета —
Иначе говоря, мы наблюдаем 0.336 мутаций на маркер, а на самом деле их 0.403 мутаций на маркер, то есть на 20 % больше. Те мутации, что мы теряем, вернулись в исходное положение, и не учитываются при «линейных» подсчетах.
Как рассчитывают погрешности в ДНК-генеалогии?
ОБЩАЯ ОТНОСИТЕЛЬНАЯ ПОГРЕШНОСТЬ – важная величина, указывающая на доверительный интервал, или надежность определения расстояния до времени жизни общего предка рассматриваемой популяции. По правилам математической статистики, расчет погрешности обычно производится для «одной сигма» или «двух сигма», что соответствует 68 % и 95 % доверительному интервалу, соответственно. Для одной сигма берется обратная величина квадратного корня из общего числа мутаций в серии гаплотипов, возводится в квадрат, к ней прибавляется 0.01 (это квадрат средней погрешности величины константы скорости мутации, при принимаемой ее погрешности ± 10 %, то есть 0.1), и из полученной суммы извлекается квадратный корень.
Например, при 100 мутациях (от базового гаплотипа) в серии гаплотипов получаем:
Таким образом, погрешность расчетов для 100 мутаций в серии равна ± 14.14 %, или, округленно, 14 %. Это – для доверительного интервала 68 % (одна сигма).
Для доверительного интервала 95 % (два сигма) полученная величина удваивается, то есть погрешность расчетов составляет ± 28 %. Но опыт показывает, что для расчетов реальных, документированных генеалогий, доверительный интервал в одну сигма является реалистичным. Дело в том, что требование 95 %-ной точности нереально для ограниченных серий гаплотипов. Более того, после рассмотрения многих сотен экспериментальных серий гаплотипов выяснилось, что закладываемая погрешность для констант скоростей мутаций ± 10 % является завышенной, на практике она не превышает ± 2.5 %. Поэтому при 100 мутациях в серии гаплотипов погрешность при одной сигме составляет не ± 14.14 %, а ± 10.31 %.