Introduction to molecular markers in ecology

Introduction to molecular  markers in ecology Peter Mikulíček Department of Zoology, Comenius University, Bratislava Institute of Vertebrate Biology, ...
Author: Imogen Garrett
1 downloads 1 Views 2MB Size
Introduction to molecular  markers in ecology Peter Mikulíček Department of Zoology, Comenius University, Bratislava Institute of Vertebrate Biology, ASCR, Brno

I will talk about … 1. molecular markers applied in ecological  studies 2. basic population genetic principles in natural  populations 3. how to find out parameters of genetic  diversity, population differentiation and  genetic structure

Molecular markers • organelle – mtDNA, cpDNA • nuclear

• neutral • under selection

• autosomal – localized on autosomes • gonosomal – localized on sex chromosomes • codominant – identify all of the alleles at a particular locus • dominant – identify only a single dominant allele • conserved – low mutation rate, suitable for more distantly related  taxa • highly variable – high mutation rate, suitable for studying of closely  related organisms (individual and population level)

Mitochondrial DNA (mtDNA) • involved in cellular respiration • 13 protein‐coding genes • 22 genes for tRNA • 2 genes for rRNA • control region – replication  and transcription initiation • mammals 15‐17 000 bp • relatively conserved structure • universal primers can be used  – amplify a specific sequence of  DNA in many organisms

Mitochondrial DNA (mtDNA) • relatively high mutation rate – less stringent repair mechanisms – relatively high level of polymorphism

• maternal, haploid and clonal inheritance – no recombination – all descendants of a single female  share the same mtDNA haplotype, until a mutation  occurs

• assumption of neutrality

Mitochondrial DNA (mtDNA) • exceptions to the rules – paternal leakage in low levels in mice, birds, humans – mussels (Bivalvia) – females inherit mtDNA from their  mothers, males inherit both maternal and paternal mtDNA  (heteroplasmy) – low rate of recombination in heteroplasmic individuals – some sites in protein‐coding mtDNA genes can be driven  by natural selection

Problems with mtDNA • introgression through hybridization – mtDNA of the newt Lisotriton vulgaris replaced mtDNA of L.  montandoni in most of its range (Babik et al. 2005) – more than 30% of water frogs Pelophylax ridibundus possess  mtDNA of P. lessonae (Plötner et al. 2008) – inappropriate in phylogenetic/phylogeographic studies

Problems with mtDNA • inherited as a single locus – phylogeny based on mtDNA should not reflect phylogeny of  species (mtDNA vs. species tree) A

B

C

A

gene tree

B

C

species tree

• reduced effective population size (Ne) – more influenced by genetic drift and sensitive to bottlenecks

Problems with mtDNA • influenced by sex‐biased dispersal • philopatric females, dispersing  males – strong population  structure based on mtDNA, but not  based on nuclear markers

Loggerhead (Caretta caretta) mtDNA Fst=0.420 microsatellites Fst=0.002 gene flow is mediated by males Bowen & Karl, 2007

Problems with mtDNA • mitochondrial pseudogenes (numts = nuclear  copies of mtDNA sequences) • copies of mtDNA translocated to the nuclear  genome with independent evolution • mtDNA pseudogenes can be amplified during PCR • analysis of mtDNA gene and its pseudogene  makes no sense!

Codominant vs. dominant markers codominant

dominant

A                    B                  C

A                    B                  C 250 bp

235 bp

230 bp 220 bp

207 bp

210 bp 203 bp 170 bp

hetero‐ and homozygotes can be distinguished only using codominant markers

• codominant – identify all of the alleles at a particular locus  (allozymes, microsatellites, RFLP, DNA sequences, SNP) • dominant – identify only a single dominant allele (RAPD, AFLP)

RFLP and PCR‐RFLP • Restriction Fragment Length Polymorphism • entire genome (RFLP) or a PCR fragment (PCR‐RFLP) is  digested with one or more restriction enzymes, which cut  DNA at short specific sequences • RFLP: how to do it? – – – –

restriction of DNA with one or more enzyme run the fragments on a gel transfer fragments onto a membrane hybridization with a probe (single‐stranded copies of a particular  sequence, fluorescently labeled) – a comparison of the number and sizes of labeled bands among  individuals – a fingerprint of more related individuals is more similar 

codominant inheritance of RFLP markers

more related individuals share similar pattern of restriction fragments

PCR‐RFLP • PCR product is digested with one or more restriction enzymes • suitable for (sub)species identification • a case study: mtDNA gene ND2 in water frogs ... ATCGTTAGCGTAAG CTTATACCGATGCA ... ... TAGCAATCGCATTC GAATATGGCTACGT ...

AluI P. ridibundus

... ATCGTTAGCGTAATCTTATACCGATGCA ... ... TAGCAATCGCATTAGAATATGGCTACGT ...

P. lessonae

AluI digests ND2 gene into two fragments in Pelophylax ridibundus because it contains a specific recognition site (AGCT/TCGA)

DNA sequences • widely used molecular markers • allow to infer evolutionary relationships of alternative alleles • the rate of substitutions is different in different sequences  and organisms • mtDNA genes, synonymous sites and introns evolve faster  than nuclear genes, non‐synonymous sites and exons • conservative sequences are used for more distant taxa • variable sequences allow comparison between closely related  taxa (populations)

Single Nucleotide Polymorphisms (SNPs) • single base pair positions along a DNA sequence that vary  between individuals • almost all common SNPs are biallelic – much less variable  than microsatellites • lots of SNPs across a genome • frequency: every 200‐500 bp in non‐coding and 500‐1000 bp  in coding regions ATGCCTATTTGCACCTTAGTGATGCTACGTAATGC ATCCCTATTTGCACCTTAGTGGTGCTACGTAATGC SNP

SNP

How to detect SNPs? • automated sequencing and next‐generation sequencing • once SNP sites have been identified they can be detected by – – – – – –

RFLP allele‐specific PCR DGGE (denaturing gradient gel electrophoresis)  TGGE (temperature gradient gel electrophoresis) SSCP SNP arrays – scan the whole genome to detect thousands of  SNPs

Single Strand Conformation Polymorphism (SSCP) substitutions in DNA result to conformational difference of single-stranded nucleotide sequences 1)PCR 2)denaturation of PCR products to form single-stranded DNA 3)alternative single-stranded alleles have different 3-dimensional conformation and different migration (pattern) on a gel

ATGTCCTGACACGTAGTCTCGAT

ATGTCCTGACGCGTAGTCTCGAT

Microsatellites • simple sequence repeats (SSR) or short tandem repeats (STR)  • consist of tandem repeats of 1‐6 bp, e.g. (CA)50 • found in all eukaryotic organisms in nuclear DNA, less in mtDNA • high mutation rate  – 10‐2 – 10‐5 mutations/haploid genome/generation

• high intrapopulation polymorphism (up to tens alleles per locus) • selectively neutral • suitable markers for comparison between individuals and  populations (behavioral studies, population genetics) • unsuitable for phylogeny (homoplasy – alleles identical by size but  not by descent) 

Microsatellites ‐ structure • dinucleotides (CA)n • trinucleotides (GCT)n • tetranucleotides (CGTA)n • perfect (CA)n • interupted (CA)n TCAGCTTAGTCA (CA)n GATCATCTGA GGTCCGCTAG TACTGCGACG ATAAGCGGAG ACTGGGGGTA GTGTTGTGTG CTGTGTGTGT GTGTGTGAGT GTGTGTGACT GTGTGTGACT GTGTGTGTGT GAGTGTGGGT GAGTGTGTGT GTGTGTGTGT GTGTGTGTGT GTGTGTGTGT GTGTGTGTGT GTGTGTGTGT GTGTGTGTGT GTGTGTGCGT GTGTGTGTGT CAGATAGGAC TCGCCCTAAA TATTCTGTGT CTTGGATC substitutions repeats

flanking region (primer binding)

Microsatellites ‐ mutations • insertions/deletions (indels) of only one repeat are the most  common • indels of several repeats are occasional • allow to infer evolutionary relationships of alternative alleles A B C D A B C D E

alleles A a B are more closely related than e.g. alleles A a C

homoplasy: alleles C a E have the same size but do not share the most recent common ancestor

Microsatellites – mutation models • stepwise mutation model (SMM) – mutation involves the loss or gain of a single tandem repeat – alleles may possibly mutate towards allele state already present in a population

• infinite allele model (IAM) – mutation involves any number of tandem repeats  – always results in alleles not previously encountered in a  population

• two phase model (TPM) – most of mutations involve the loss or gain of a single tandem  repeat, but few mutations involve the loss or gain of several  repeats – the most realistic model

Amplified Fragment Length Polymorphisms (AFLP) • multi‐band profiles are generated • much more reproducible than RAPD • four steps – digesting DNA with two different restriction enzymes  producing overlapping ends (e.g. EcoRI, MseI) – ligation of adaptors to overlapping ends of fragments – preselective PCR – selective PCR – capillary electrophoresis

AFLP

1) digesting DNA  with two  restriction  enzymes

2) ligation of adaptors gel image

fragmentary analysis

3) preselective PCR 4) selective PCR

5) capillary electrophoresis in sequencer  (fragmentary analysis)

each individual is characterized by a specific  banding profile

DNA microarrays (chips) • allow to study thousand of genes • SNPs detection • extensive sequence information is required • short oligos (25‐mer) corresponding to parts of genes are bound on the  slide • these arrays are then hybridized with labeled mRNA from an individual  under test • stable hybrids are only formed with oligos that are fully  complementary • alternative alleles (with a different SNP) are not bound on an array

• gene expression • no prior sequence information is needed • it is possible to compare the different levels of expression of multiple  genes between individuals sampled from different populations or  experiencing different environmental conditions

http://www.bio.davidson.edu/courses/genomics/chip/chip.html

How to detect • parameters of genetic diversity • genetic differentiation of populations • population structure

Parameters of genetic diversity • proportion of polymorphic loci (P)  • allelic diversity (A) – average number of alleles per locus

• allelic richness (AR) – similar to A but compensated for unequal sample sizes

• observed heterozygosity (Ho) – number of heterozygotes at a particular loci divided by the total  number of individuals

• expected heterozygosity (He) – frequency of heterozygotes that would be expected if a population is  in HWE – if He is significantly different from Ho the population is not in HWE

Parameters of genetic diversity • gene diversity  – represents the probability that two alleles randomly chosen from the  population will be different from one another – depends only on allele frequencies – equivalent to He in a randomly mating population – less sensitive to sample size

• haplotype diversity (h) – number and frequency of different mitochondrial haplotypes

• nucleotide diversity (π) – quantifies the mean divergence between sequences – depends on the frequencies of different haplotypes and their pairwise  nucleotide divergences

Effective population size (Ne) • reflects the rate at which genetic diversity will be lost following  genetic drift • the loss of genetic diversity is inversely proportional to the Ne – small populations have usually lower genetic diversity – the loss of genetic diversity is more substantial in mtDNA

• Ne usually much lower than Nc (census size) • reduced by – unequal sex ratio – variation in reproductive success between individuals – fluctuations in population size

How to estimate Ne? • single‐sample estimators – animals are sampled just once in a population – the most common used is linkage disequilibrium (LD) method

• principle of LD method – in a small population genetic drift increases the likelihood of non‐ random associations among alleles from different loci (LD) because  only relatively few parents transmit their genes to the next generation

• assumption – LDs are generated only by drift, selection and migration are negligible – usually works well in natural populations despite the violence of the  main assumptions

How to estimate Ne? • temporal methods – require samples from two or more time periods separated at least one  generation – based on the variance of alleles frequencies over time

• principle of temporal methods  •

genetic drift changes allele frequencies more rapidly in populations  with small Ne, and therefore pronounced changes in allele  frequencies over time suggest small Ne

• estimate Ne better in small populations (in large populations  genetic drift is weak) • assumption – selection and migration are negligible, generations do not overlap

Bottleneck effect •

reduction of genetic diversity after reduction in population size



depends on the size that a population is reduced to, and the speed at  which it recovers



populations experiencing substantial and constant decline will loss more  alleles than populations that rapidly recover their size

population number

1800 1600 1400 1200 1000 800 600 400 200 0 10 20 00 20 90 19 80 19 70 19 60 19 50 19 40 19 30 19 20 19 10 19 00 19 90 18 80 18 70 18 60 18

adapted from Hájková (2007)

year

example: a population of the Tatras chamois experienced two declines in the 20th century

How to detect bottleneck? • one sample test – based on an excess of heterozygotes in a population – principle: during bottleneck rare alleles are lost relatively  quickly but these make little contribution to the total  heterozygosity, which is mostly dictated by the commoner  alleles – during a bottleneck there should be a transient increase in  heterozygosity relative to expectation for the observed allele  numbers – limits: an excess of heterozygosity should persist for 0.2‐4 x Ne  generations (Ne is the post‐bottleneck effective size)

How to detect bottleneck? • two samples test – require two population samplings at least one generation apart – principle: bottleneck accelerates genetic drift what leads to an  inflated variance in allele frequencies between two sampling  periods – limits: if a population has undergone a prolonged bottleneck  (lasting > 3‐5 generations) many alleles are completely lost and  their frequency in post‐bottleneck population cannot be  calculated

Genetic differentiation of populations • means that populations differ in their allele frequencies • intensive gene flow = weak population differentiation • reduced gene flow = significant population differentiation

intensive gene flow

reduced gene flow

How to measure genetic differentiation • genetic distances – Nei`s standard genetic distance (Ds) – Cavali‐Sforza & Edwards` chord distance (DCE) – Goldstein`s distance (δμ)2 uses allele size variation, developed  especially for microsatellites

• fixation index Fst – measures the degree of inbreeding within subpopulations relative to  the total population – reflects the probability that two alleles drawn from within a  subpopulation are identical by descent

Fst = HT – Hs / HT

HT – expected heterozygosity of the total population Hs – expected heterozygosity of subpopulations

0 ≤ FST ≤ 1 FST = 1 FST

Suggest Documents