Statistické zpracování biosystematických a taxonomických dat

Petr Šmarda

V uplynulých letech byl postupně upraven a doplněn obsah statistického předmětu, který je jedním ze základních metodických předmětů pro modul Biosystematika rostlin. Právě v řadách studentů tohoto modulu by měl pravidelně nacházet své frekventanty, kterým představuje metody a výpočty zásadního charakteru pro zpracování jejich diplomových studií.

Cílem inovace předmětu je
(1) zásadně rozšířit stávající cvičení k vícerozměrným statistickým a fylogenetickým metodám v návaznosti na výuku ve cvičení z metod taxonomie rostlin.
(2) zaměřit cvičení na praktické osvojení si teoretických znalostí získaných při výkladu samostatnou prací s jednotlivými statistickými programy a technikami na cvičeních.
(3) naučit studenty samostatně a efektivně plánovat experimenty a vyhodnocovat je v souladu s náročnými požadavky současných vědních disciplín a mezinárodních časopisů.

Období po zahájení projektu bylo věnováno studiu literárních zdrojů pro přípravu přednášky pojednávající o problematice fylogenetických kontrastů a jejich aplikace v biosystematice, práce s prezenčně absenčními daty a kontribučního indexu.

Nedílnou součástí výuky předmětu bude práce s programem Phylocom, v současné době široce využívaným při testování evoluce znaků v rámci fylogenetických studií. Příprava inovované podoby předmětu tak zahrnovala i studium manuálu k tomuto programu a jeho implementaci do přednášky.

V období let 2010 a 2011 byly připraveny přednáškové materiály rozšířené v těchto oblastech:
implementace klimatických dat k testování hypotéz o evoluci areálu druhů;
stratifikace dat o rozšíření druhů a jejich propojení s klimatickými databázemi;
příprava modelových datových souborů pro testování klimatických proměnných a jejich testování v programu Phylocom.
kalibrace uzlů (nodů) fylogenetických stromů, datování stáří uzlů a divergencí - fosilní evidence, efekt kontinentálního driftu, historické klimatické oscilace;
zahrnutí časové kalibrace divergencí / nodů na fylogenetických stromech do modelových datových souborů;
využití datace kontinentálních posunů (rozpad Gondwany) ke kalibraci evolučních událostí, lokální a ekologicky podmíněná vikarizace;
počítání rychlosti fenotypové divergence na fylogenetických stromech, implementace vikarizační analýzy;
využití lineární regrese přes počátek k hodnocení standardizovaných fylogenetických kontrastů;
klastrovací metody, ordinační metody;
shlukovací metody a algoritmy;
podobnostní koeficienty
ordinační metody a algoritmy, grafické zobrazení ordinačního prostoru a interpretace os;
konstrukce biplotů a jejich interpretace, CCA, neparametrické ordinační metody, NMDS, K means a další ordinační metody, interpretace výsledků ordinačních metod;
úvod do fylogenetických metod, parsimonie a nepodobnost, fylogenetická vzdálenost, fylogenetické kontrasty;
studium programování statistických operací v programu R - načítání dat, manipulace s vektory, základní statistické testy, zobrazení výsledků regresních analýz, načítání a manipulace s fylogenetickými stromy, zobrazování fylogenetických analýz.
V rámci aktualizace výukových materiálů byla provedena též
úprava cvičných datových souborů k ordinačním metodám;
testování kompatibility současných vzorových dat s programem R;
příprava skriptu k zobrazování fylogenetických analýz v R;
modifikace stávajících skriptů pro program R o analýzu kontribučního indexu a fylogenetického signálu;
příprava testovacích datových souborů pro použití v R pro studenty.

Součástí přípravy rozšířené výuky je i načerpání informací k softwarovým produktům a metodám, využívaným v současných biosystematických studiích. V daném období šlo o studium manuálu k programu MEGA, k fylogenetickému programovému balíčku Picante a literatury k problematice fylogenetických kontrastů (v manuálu k programu Phylocom a článcích v časopise Molecular Phylogenetics and Evolution), k zobrazování fylogenetických stromů a výsledků fylogenetických analýz v programu R.

jarní semestr 2012, výuka realizována v průběhu semestru 20. 2.-18. 5.

Pro tento semestr je předmět připraven s rozšířenou porcí praktické výuky (v celkovém rozsahu odpovídajícím 2 hodinám teorie a 2 hodinám praktického cvičení týdně). Lze předpokládat, že bude vypisován s dvouletou periodicitou v sudých letech (v alternaci s jinými ICT předměty, vypsanými v jarním semestru lichých let), případně častěji dle zájmu studentů.

V průběhu zimy a jara 2012 byly připraveny přednáškové materiály rozšířené v těchto oblastech:
vynášení hodnot znaků na fylogenetické stromy;
barevné škálování hodnot znaků na fylogenetické stromy pomocí R
tvorba klasifikačních, regresních a fylogenetických stromů
metody diskriminační analýzy
hodnocení fylogenetické korelovanosti dat v programu R
aplikace general least square metod k filtrování fylogenetické příbuznosti vzorků
použití jednoduchých statistických testů typu ANOVA v taxonomii a biosystematice
V rámci aktualizace výukových materiálů byla provedena též
příprava datových souborů pro barevné škálování hodnot znaků na fylogenetické stromy pomocí R
testování tvorby klasifikačních a regresních stromů na modelových datech, příprava datových souborů a modifikace dat
úprava datových souborů k praktickému cvičení z diskriminační analýzy
příprava návodu k použití diskriminační analýzy v programu Statistica
testování metody gls na modelových datech a příprava "kuchařky" pro studenty
úprava skriptu pro vykreslování znaků na fylogenetických stromech v programu R
použití programu chromEvol, umožňujícího mapovat evoluci chromozomů na fylogenetických stromech
příprava datových souborů k použití bootstrapu k nehiararchické klasifikaci pomocí k-means algoritmu
Pro výuku od jarního semestru 2012 tak je finálně připraven předmět s touto strukturou:
1. Základní členění metod a typů dat; základní popisná statistika
2. Jednoduché statistické testy I, pravděpodobnost, významnost
3. Jednoduché statistické testy II, korelace, regrese, plánování experimentů, problém pseudoreplikace, tvoření hypotéz
4. Koeficienty podobnosti, matice podobnosti, testování maticových dat
5. Ordinační metody I - základní rozdělení, tvorba ordinačního diagramu
6. Ordinační metody II - interpretace diagramů, testování shluků, porovnávání ordinací
7. Shluková analýza I - rozdělení metod, shlukovací algoritmy, konstrukce stromů
8. Shluková analýza II - testování kvality stromů, porovnávání stromů a jejich interpretace
9. Diskriminační analýza, výběr nejvhodnějších určovacích znaků
10. Evoluční stromy I - fylogenetický přístup, fylogenetické termíny a popis fylogenetického stromu, alignment
11. Evoluční stromy II - popis základních metod konstrukce stromů (maximum likelihood, parsimony), testování kvality stromů, interpretace stromů
12. Evoluční stromy III - testování evoluce znaků, molekulární hodiny
13. Statistika a fylogeneze na internetu, grafická prezentace výsledků

Předměty