Náhodné veličiny a náhodné vektory
Definice, typy, distribuční funkce, pravděpodobnostní funkce, hustota, momenty, příklady rozdělení, nezávislost, kovariance, korelace.
🎲 Pravděpodobnostní prostor – základní pojmy
Pravděpodobnost kvantifikuje náhodu. Abychom s ní mohli matematicky pracovat, definujeme pravděpodobnostní prostor jako trojici E = (Ω, F, P).
- Ω (prostor elementárních jevů / sample space) – množina všech možných výsledků experimentu. Elementární jevy musí být vzájemně exkluzivní a vyčerpávající.
- F (σ-algebra) – kolekce podmnožin Ω (náhodných jevů), pro které umíme přiřadit pravděpodobnost. Musí splňovat: ∅ ∈ F; pokud A ∈ F, pak Ac ∈ F; pokud A₁, A₂, ... ∈ F, pak ⋃Aᵢ ∈ F.
- P (pravděpodobnostní míra) – funkce P: F → [0,1] splňující: nezápornost P(A) ≥ 0; normalizace P(Ω) = 1; σ-aditivita: pro disjunktní A₁, A₂, ... platí P(⋃Aᵢ) = Σ P(Aᵢ).
Na nespočetném Ω (např. Ω = ℝ) nelze přiřadit pravděpodobnost všem podmnožinám bez paradoxů. σ-algebra přesně vymezuje, které jevy jsou „měřitelné".
Základní vlastnosti pravděpodobnosti: P(∅) = 0; P(Ac) = 1 − P(A); P(A∪B) = P(A) + P(B) − P(A∩B); pokud A ⊂ B, pak P(A) ≤ P(B) (monotonie).
📊 Definice náhodné veličiny a distribuční funkce
Podmínka měřitelnosti říká, že množina {ω : X(ω) ≤ x} je vždy náhodný jev, tedy leží v σ-algebře F. V praxi tuto podmínku obvykle nepotřebujeme ověřovat – je potřebná pro důkazy.
Distribuční funkce jednoznačně určuje pravděpodobnostní rozdělení náhodné veličiny.
Vlastnosti distribuční funkce:
- Neklesající: x < y ⇒ F(x) ≤ F(y)
- Ohraničení: limx→−∞ F(x) = 0 a limx→+∞ F(x) = 1
- Spojitost zprava: limy→x+ F(y) = F(x)
Odvozené pravděpodobnosti: P(X > x) = 1 − F(x); P(a < X ≤ b) = F(b) − F(a); P(X = x) = F(x) − limy→x− F(y).
Skok v distribuční funkci nastane v bodě, kde X nabývá nenulové pravděpodobnosti. Hodnota F je v horní části skoku (spojitost zprava), protože F(x) = P(X ≤ x) zahrnuje rovnost.
🔢 Diskrétní náhodné veličiny
Podmínka normalizace: Σₖ P(X = xₖ) = 1. Distribuční funkce:
FX je po částech konstantní se skoky v hodnotách xₖ. Velikost skoku = P(X = xₖ).
Hod dvěma mincemi: X = počet hlav. Ω = {OO, OH, HO, HH}. P(X=0) = 1/4, P(X=1) = 1/2, P(X=2) = 1/4. E[X] = 0·(1/4) + 1·(1/2) + 2·(1/4) = 1.
〰️ Spojité náhodné veličiny a hustota pravděpodobnosti
Vlastnosti hustoty:
- Normalizace: ∫−∞+∞ f(x) dx = 1
- P(X = x) = 0 pro každé konkrétní x (spojité rozdělení)
- fX(x) = F'X(x) (kde existuje derivace)
- P(a < X ≤ b) = ∫ab f(x) dx = F(b) − F(a)
U spojitých veličin je nespočetně mnoho hodnot. Pokud by každá měla kladnou pravděpodobnost, celkový součet by divergoval k nekonečnu. Proto každá izolovaná hodnota má nulovou pravděpodobnost a pravděpodobnosti přiřazujeme intervalům.
U spojitých veličin nezáleží, zda jsou nerovnosti ostré: P(a < X < b) = P(a ≤ X ≤ b).
📐 Charakteristiky náhodných veličin – momenty
Střední hodnota (expectation, expected value) je základní charakteristika polohy:
Interpretace: E[X] je vážený průměr hodnot; rovnovážný bod hustoty/pravděpodobností; ideální průměr z nekonečně mnoha opakování experimentu.
Vlastnosti střední hodnoty:
- Linearita: E[aX + b] = a·E[X] + b (platí vždy)
- Linearita součtu: E[aX + bY] = a·E[X] + b·E[Y] (platí bez podmínky nezávislosti)
- E[c] = c pro konstantu c
Směrodatná odchylka: sd(X) = √var(X)
Výpočetní vzorec: var(X) = E[X²] − (E[X])²
Rozptyl měří průměrnou čtvercovou vzdálenost od středu. Má kvadratické jednotky (proto směrodatná odchylka jako odmocnina). Vlastnosti: var(aX + b) = a²·var(X); var(c) = 0.
Obecné momenty: k-tý moment: μₖ = E[Xk]; k-tý centrální moment: σₖ = E[(X − E[X])k]. Speciálně: μ₁ = E[X] (střední hodnota), σ₂ = var(X).
Šikmost (skewness): γ₁ = σ₃ / (var X)3/2 – míra asymetrie rozdělení.
Špičatost (kurtosis): γ₂ = σ₄ / (var X)² − 3 – porovnání s normálním rozdělením (γ₂ = 0).
Kvantily: α-kvantil qα = inf{x : F(x) ≥ α}. Speciálně: medián q₀.₅, dolní kvartil q₀.₂₅, horní kvartil q₀.₇₅.
U asymetrických rozdělení (např. příjmy) se střední hodnota a medián mohou výrazně lišit. Průměrný příjem v ČR (2025): 51 828 Kč, ale 68 % populace vydělává méně (medián: 42 101 Kč).
MVF jednoznačně určuje rozdělení (je to Laplaceova transformace hustoty). Umožňuje snadný výpočet momentů a dokazování, jaké má součet nezávislých veličin rozdělení.
📋 Důležitá diskrétní rozdělení
| Rozdělení | Parametry | P(X = k) | E[X] | var(X) | Použití |
|---|---|---|---|---|---|
| Bernoulliho Be(p) | p ∈ [0,1] | P(1)=p, P(0)=1−p | p | p(1−p) | Jeden pokus – úspěch/neúspěch |
| Binomické Binom(n,p) | n ∈ ℕ, p ∈ [0,1] | C(n,k)·pk·(1−p)n−k | np | np(1−p) | Počet úspěchů v n pokusech |
| Geometrické Geom(p) | p ∈ (0,1) | (1−p)k−1·p, k=1,2,... | 1/p | (1−p)/p² | Počet pokusů do prvního úspěchu |
| Poissonovo Poisson(λ) | λ > 0 | (λk/k!)·e−λ, k=0,1,... | λ | λ | Počet událostí v čase (limita Binom pro n→∞) |
Binom(n, p) → Poisson(λ) pro n → ∞, p → 0, np = λ (konstantní). Výchozí situace: velká populace (n), malá pravděpodobnost (p), konstantní průměrný počet událostí λ. Příklad: překlepy v textu, požadavky na server.
Odvození binomického: X = počet úspěchů v n nezávislých pokusech. Každý výsledek s k úspěchy a n−k neúspěchy má pravděpodobnost pk(1−p)n−k. Počet takových výsledků: C(n,k). Proto P(X = k) = C(n,k)·pk·(1−p)n−k.
Indikátor jevu: 1A = 1 pokud A nastalo, 0 jinak. Binomické X = Σ 1Hᵢ. E[1A] = P(A). Toto vyjádření velmi usnadňuje výpočty.
〰️ Důležitá spojitá rozdělení
| Rozdělení | Hustota f(x) | CDF F(x) | E[X] | var(X) |
|---|---|---|---|---|
| Rovnoměrné U(a,b) | 1/(b−a) pro x ∈ (a,b) | (x−a)/(b−a) pro x ∈ [a,b] | (a+b)/2 | (b−a)²/12 |
| Exponenciální Exp(λ) | λe−λx pro x ≥ 0 | 1 − e−λx | 1/λ | 1/λ² |
| Normální N(μ, σ²) | (1/√(2πσ²)) · exp(−(x−μ)²/(2σ²)) | Φ((x−μ)/σ) numericky | μ | σ² |
Rovnoměrné rozdělení: Všechny hodnoty v (a,b) jsou stejně pravděpodobné. Základní model neznalosti/náhody. Hustota je konstanta 1/(b−a).
Exponenciální rozdělení: Modeluje časy do poruchy, čekání na události. Parametr λ je intenzita (1/λ = střední hodnota). Bez paměti: P(X > s+t | X > s) = P(X > t).
Normální (Gaussovo) rozdělení: Nejdůležitější spojité rozdělení – Centrální limitní věta říká, že součty/průměry konvergují k normálnímu rozdělení. Je určeno střední hodnotou μ a rozptylem σ².
Pokud X ~ N(μ, σ²), pak Z = (X − μ)/σ ~ N(0, 1). Distribuční funkce N(0,1) se značí Φ a její hodnoty jsou tabelovány. Použití: P(X ≤ x) = Φ((x−μ)/σ).
📦 Náhodné vektory – definice a sdružené rozdělení
Diskrétní náhodné vektory: Sdružené pravděpodobnosti P(X = x ∩ Y = y) tvoří sdruženou pravděpodobnostní funkci. Normalizace: ΣΣ P(X = xᵢ ∩ Y = yⱼ) = 1.
Spojité náhodné vektory: Sdružená hustota fX,Y(x, y) splňuje FX,Y(x, y) = ∫∫ fX,Y(u,v) du dv. Platí f = ∂²F/∂x∂y a normalizace ∫∫f = 1.
Marginální rozdělení – rozdělení jedné veličiny získané marginalizací (sumou/integrací přes druhou):
Podmíněné rozdělení:
Podmíněná střední hodnota: E[X | Y = y] = Σ x P(X=x|Y=y) resp. ∫ x fX|Y(x|y) dx.
Oba sázejí na hod kostkou (Alice na sudé, Bob na velká čísla 4,5,6). Jejich výhry X, Y jsou závislé – sdružené rozdělení zachycuje tuto závislost. Z marginálního rozdělení vidíme, že oba mají 50% šanci na výhru. Ale pokud víme, že Bob vyhrál (padlo 4,5,6), Alice má šanci 2/3 (padlo 4 nebo 6).
🔗 Nezávislost náhodných veličin
Ekvivalentně: pro diskrétní P(X = x ∩ Y = y) = P(X = x)·P(Y = y);
pro spojité fX,Y(x, y) = fX(x)·fY(y).
Jak ověřit nezávislost spojitých veličin: Stačí ukázat, že sdružená hustota se rozkládá jako fX,Y(x, y) = g(x)·h(y), kde g, h jsou nezáporné funkce (marginální hustoty mohou lišit multiplikativní konstantou).
Neslučitelné jevy (A ∩ B = ∅, s nenulovými pravděpodobnostmi) jsou silně závislé – pokud nastane B, A nastat nemůže. Nezávislost je pravděpodobnostní pojem, neslučitelnost je množinový pojem.
Důsledky nezávislosti:
- E[X·Y] = E[X]·E[Y] (střední hodnota součinu = součin středních hodnot)
- MX+Y(s) = MX(s)·MY(s)
- var(X + Y) = var(X) + var(Y) (pro nezávislé veličiny)
- Součet n nezávislých N(μ, σ²) má rozdělení N(nμ, nσ²)
- Součet nezávislých Poisson(λ) a Poisson(μ) má Poisson(λ+μ)
📈 Kovariance a korelace
Korelační koeficient: ρ(X, Y) = cov(X, Y) / √(var(X)·var(Y))
Korelační koeficient měří míru lineární závislosti mezi X a Y.
Vlastnosti korelačního koeficientu:
- −1 ≤ ρ(X, Y) ≤ 1
- ρ = +1 ⇔ Y = aX + b pro a > 0 (dokonalá pozitivní lineární závislost)
- ρ = −1 ⇔ Y = aX + b pro a < 0 (dokonalá negativní lineární závislost)
- ρ(aX + b, cY + d) = ρ(X, Y) pro a, c > 0 (invariantnost na lineární transformaci)
- Nezávislost ⇒ ρ = 0 (nekorelovanost), ale ρ = 0 neimplikuje nezávislost!
Rozptyl součtu: var(X ± Y) = var(X) + var(Y) ± 2·cov(X, Y). Pro nekorelované (nebo nezávislé): var(X ± Y) = var(X) + var(Y). Obecně: var(aX + bY) = a²var(X) + b²var(Y) + 2ab·cov(X,Y).
Kladná korelace: pokud X je nad průměrem, Y taky spíše nad průměrem. Záporná korelace: pokud X je nad průměrem, Y spíše pod průměrem. ρ = 0: lineárně nezávislé (ale mohou být nelineárně závislé).
📝 Shrnutí okruhu 1 – klíčové body
- Pravděpodobnostní prostor (Ω, F, P): elementární jevy, σ-algebra, pravděpodobnostní míra s axiomy nezápornosti, normalizace a σ-aditivity.
- NV X: funkce Ω → ℝ s podmínkou měřitelnosti. CDF F(x) = P(X ≤ x) je neklesající, zprava spojitá, jde z 0 do 1.
- Diskrétní NV: PMF p(x) = P(X = x), normalizace Σp = 1. Spojitá NV: PDF f(x) ≥ 0, F(x) = ∫f, ∫f = 1, P(X=x) = 0.
- Momenty: E[X] (střední hodnota), var(X) = E[X²]−(E[X])² (rozptyl). Linearita E[aX+bY] = aE[X]+bE[Y].
- Náhodný vektor: sdružená CDF/PMF/PDF, marginální a podmíněné rozdělení. Nezávislost: sdružená = součin marginálních.
- Korelace: ρ ∈ [−1,1], nezávislost ⇒ ρ = 0 (ale ne naopak). var(X+Y) = varX + varY + 2·cov(X,Y).
❓ Kontrolní otázky pro státnice
Základy matematické statistiky
Náhodný výběr, princip bodových a intervalových odhadů, testování statistických hypotéz, odhady střední hodnoty a souvislost s testováním hypotéz o střední hodnotě.
🔬 Náhodný výběr a statistické myšlení
Klíčový rozdíl: Teorie pravděpodobnosti – ze známého modelu (rozdělení) počítáme pravděpodobnosti. Matematická statistika – z dat odhadujeme neznámý model nebo jeho parametry.
Typické kroky statistického zkoumání:
- Odhad tvaru rozdělení – histogram, empirická distribuční funkce
- Bodový odhad – nejpravděpodobnější hodnota parametru
- Intervalový odhad – interval obsahující parametr s danou pravděpodobností
- Testování hypotéz – ověření tvrzení o parametru/tvaru rozdělení
Empirická distribuční funkce (ECDF):
Je po částech konstantní se skoky 1/n. Ze zákona velkých čísel konverguje k teoretické distribuční funkci F.
🎯 Bodové odhady – princip a vlastnosti
Nejdůležitější bodové odhady:
- Výběrový průměr: X̄ₙ = (1/n)·Σ Xᵢ – odhad střední hodnoty μ
- Výběrový rozptyl: s²ₙ = (1/(n−1))·Σ(Xᵢ − X̄ₙ)² – odhad rozptylu σ²
- Výběrová kovariance: sX,Y = (1/(n−1))·Σ(Xᵢ − X̄ₙ)(Yᵢ − Ȳₙ)
- Výběrový korelační koeficient: rX,Y = sX,Y/(sX·sY)
Konzistentní odhad: θ̂ₙ →P θ pro n → ∞ (chyba mizí s rostoucím n).
Nejlepší nestranný odhad: nestranný odhad s nejmenším rozptylem.
Proč dělíme n−1 u výběrového rozptylu? Průměr X̄ₙ je vypočtený z dat – tím „spotřebujeme" jeden stupeň volnosti. Dělení n−1 zajistí nestrannost: E[s²ₙ] = σ². Pokud bychom dělili n, dostali bychom systematicky podhodnocený odhad.
X̄ₙ je nestranný: E[X̄ₙ] = μ. Konzistentní ze SZVČ: X̄ₙ →P μ. Rozptyl: var(X̄ₙ) = σ²/n → 0. Pro normální rozdělení je to nejlepší nestranný odhad μ.
Metoda momentů: Ztotožníme teoretické momenty s výběrovými. Dává konzistentní odhady. Příklad pro N(μ, σ²): μ̂ = X̄ₙ, σ̂² = m₂ − m₁² = (n−1)/n · s²ₙ (tento odhad σ² není nestranný, ale asymptoticky nestranný).
Metoda maximální věrohodnosti (MLE): Hledáme parametry θ, které maximalizují věrohodnostní funkci L(θ; x) = Πf(xᵢ; θ) (hustoty dat při dané hodnotě θ). Výhodné je maximalizovat log-věrohodnost ln L. MLE pro N(μ, σ²): μ̂ = X̄ₙ, σ̂² = (1/n)Σ(Xᵢ − X̄ₙ)² (pozor: dělení n, ne n−1 – není nestranné).
⚖️ Zákony velkých čísel a Centrální limitní věta
Tyto limitní věty jsou základem celé statistiky – říkají, co se děje s průměrem při rostoucím n.
Důkaz (přes Čebyševa): P(|X̄ₙ − μ| ≥ ε) ≤ var(X̄ₙ)/ε² = σ²/(nε²) → 0.
(X̄ₙ − μ) / (σ/√n) →D N(0,1) pro n → ∞
Tj. X̄ₙ ≈ N(μ, σ²/n) pro velká n; Sₙ = ΣXᵢ ≈ N(nμ, nσ²).
Platí bez ohledu na rozdělení sčítaných veličin! I když X₁ má Bernoulliho, exponenciální nebo jiné libovolné rozdělení, průměr X̄ₙ (pro dostatečně velká n) se chová přibližně normálně. To umožňuje konstruovat intervalové odhady a testy pro libovolná rozdělení.
Standardizovaný průměr: Zₙ = (X̄ₙ − μ)/(σ/√n) = (Sₙ − nμ)/(σ√n) → N(0,1). Pro výpočty: P(X̄ₙ ≤ x) ≈ Φ((x − μ)/(σ/√n)).
Markovova nerovnost: P(|X| ≥ a) ≤ E[|X|]/a. Jednoduchý odhad pomocí střední hodnoty.
Čebyševova nerovnost: P(|X − E[X]| ≥ ε) ≤ var(X)/ε². Lepší odhad pomocí rozptylu.
📏 Intervalové odhady – princip konstrukce
Nejčastěji α = 0.05 (95% interval) nebo α = 0.01 (99% interval).
ŠPATNĚ: „S pravděpodobností 95 % leží parametr θ v tomto konkrétním intervalu." Parametr je fixní číslo, ne náhodná veličina!
SPRÁVNĚ: „Metoda konstrukce tohoto intervalu zaručuje, že 95 % takto zkonstruovaných intervalů (při opakování experimentu) bude skutečně obsahovat θ." Nebo: P(L(X) < θ < U(X)) = 0.95, kde L a U jsou náhodné veličiny závislé na výběru.
Obecný postup konstrukce:
- Najdeme statistiku H(θ) závislou na θ i na výběru se známým rozdělením.
- Určíme meze hL, hU: P(hL < H(θ) < hU) = 1−α.
- Algebraicky osamostatníme θ a získáme interval (L, U).
Jednostranné intervaly: Horní IS: (L, +∞) kde P(L < θ) = 1−α. Dolní IS: (−∞, U) kde P(θ < U) = 1−α.
Chí-kvadrát χ²(n): Součet čtverců n i.i.d. N(0,1) veličin. Výběrový rozptyl: (n−1)s²/σ² ~ χ²(n−1).
Studentovo t(n): Z/√(Y/n), kde Z ~ N(0,1) nezávislé na Y ~ χ²(n). Výběrový průměr: (X̄−μ)/(s/√n) ~ t(n−1) pro výběr z normálního rozdělení.
🎯 Intervaly spolehlivosti pro střední hodnotu
Nechť X₁, ..., Xₙ je i.i.d. výběr z N(μ, σ²). Hledáme 100(1−α)% IS pro μ.
Statistika: Z = (X̄ₙ − μ)/(σ/√n) ~ N(0,1). Oboustranný IS:
Odhadneme σ² pomocí s²ₙ. Statistika: T = (X̄ₙ − μ)/(sₙ/√n) ~ t(n−1) (Studentovo t-rozdělení). Oboustranný IS:
Pro velká n (n ≥ 30) jsou kritické hodnoty t-rozdělení blízké hodnotám N(0,1). Studentovo t-rozdělení je „tlustohvostější" než normální – intervaly jsou proto širší (penalizace za neznalost σ²).
Jednostranné IS: Horní pro μ: (X̄ₙ − tα,n−1·sₙ/√n, +∞); Dolní: (−∞, X̄ₙ + tα,n−1·sₙ/√n).
Ze CLV: i pro výběr z libovolného rozdělení platí (X̄ₙ − μ)/(σ/√n) → N(0,1). Proto pro dostatečně velká n (obvykle n ≥ 30) platí stejné vzorce přibližně. S odhadem σ → s používáme t-kritické hodnoty.
📐 Interval spolehlivosti pro rozptyl
Pro výběr z N(μ, σ²): Statistika (n−1)s²/σ² ~ χ²(n−1). Oboustranný 100(1−α)% IS pro σ²:
Interval spolehlivosti pro rozptyl pomocí χ²-rozdělení platí pouze pro výběr z normálního rozdělení. Na rozdíl od IS pro μ, kde stačí CLV pro velká n, IS pro σ² je citlivý na normalitu.
⚖️ Testování statistických hypotéz – princip
Alternativní hypotéza Hₐ: opak H₀; zamítnutím H₀ potvrdíme Hₐ.
Dva druhy chyb:
- Chyba I. druhu: Zamítáme H₀, přestože platí. Pravděpodobnost = α (hladina významnosti). Říkáme falešně pozitivní.
- Chyba II. druhu: Nezamítáme H₀, ačkoli neplatí. Pravděpodobnost = β. Síla testu = 1 − β.
Postavení H₀ a Hₐ je asymetrické. Za nulovou volíme to tvrzení, jehož neoprávněné zamítnutí (chyba I. druhu) by bylo závažnější. Zamítnutí H₀ je silný výsledek (statisticky významné). Nezamítnutí H₀ NEZNAMENÁ, že H₀ platí – může mít jen malý vzorek (nízká síla testu).
Hladina významnosti: Nejčastěji α = 0.05 nebo α = 0.01. Řídíme pravděpodobnost chyby I. druhu; chyba II. druhu pak může být vysoká.
Výsledky testu:
- Zamítáme H₀ ve prospěch Hₐ → tvrzení Hₐ je „statisticky významné"
- Nezamítáme H₀ → tvrzení Hₐ je „statisticky nevýznamné" (nedostatečně průkazné)
🔍 Parametrické testy – propojení s intervaly spolehlivosti
Klíčová myšlenka: Testování parametrické hypotézy je ekvivalentní tomu, zda testovaná hodnota leží v příslušném intervalu spolehlivosti.
1. Zvolíme α (hladina významnosti).
2. Napozorujeme realizace výběru.
3. Zkonstruujeme IS o spolehlivosti 1−α, odpovídající alternativní hypotéze.
4. Zamítneme H₀, pokud testovaná hodnota θ₀ neleží v IS.
| H₀ | Hₐ | Typ IS | Zamítnout H₀ pokud |
|---|---|---|---|
| θ = θ₀ | θ ≠ θ₀ | Oboustranný IS | θ₀ ∉ (L, U) |
| θ ≤ θ₀ | θ > θ₀ | Horní IS (L, +∞) | θ₀ < L |
| θ ≥ θ₀ | θ < θ₀ | Dolní IS (−∞, U) | θ₀ > U |
Hladina významnosti tohoto testu je skutečně α, protože: P(zamítnutí H₀ | H₀ platí) = P(θ₀ ∉ IS) = 1 − P(θ₀ ∈ IS) = 1 − (1−α) = α.
📊 Testy o střední hodnotě (z-test a t-test)
Výběr X₁, ..., Xₙ z N(μ, σ²). Testujeme H₀: μ = μ₀.
| Situace | Test. statistika T | Rozdělení pod H₀ | Kritický obor (H₀: μ=μ₀, Hₐ: μ≠μ₀) |
|---|---|---|---|
| Známý σ² (z-test) | T = (X̄ₙ − μ₀)/(σ/√n) | N(0, 1) | |T| > zα/2 |
| Neznámý σ² (t-test) | T = (X̄ₙ − μ₀)/(sₙ/√n) | t(n−1) | |T| > tα/2, n−1 |
| H₀ | Hₐ | Kritický obor (neznámý σ²) |
|---|---|---|
| μ = μ₀ | μ ≠ μ₀ | |T| > tα/2, n−1 |
| μ ≤ μ₀ | μ > μ₀ | T > tα, n−1 |
| μ ≥ μ₀ | μ < μ₀ | T < −tα, n−1 |
n=10, X̄=4.565, s²=0.0342. Test H₀: μ = 4.7 vs Hₐ: μ < 4.7, α=5%.
T = (4.565 − 4.7)/(√0.0342/√10) = −2.308. Kritická hodnota: −t₀.₀₅,₉ = −1.833.
Protože −2.308 < −1.833: zamítáme H₀. Střední váha kaprů je statisticky významně menší než 4.7 kg.
Test pro rozptyl (χ²-test): Statistika T = (n−1)s²/σ₀², H₀: σ² = σ₀². Pro Hₐ: σ² ≠ σ₀²: zamítneme pokud T > χ²α/2, n−1 nebo T < χ²1−α/2, n−1.
Test z CLV (pro jiná než normální rozdělení): Pro velká n (n ≥ 30) lze použít stejné statistiky a kritické hodnoty přibližně. Asymptotická hladina významnosti je α.
🔢 Testová statistika, kritický obor a p-hodnota
Alternativní přístup k testování (ekvivalentní s IS, ale jinak formulovaný):
Kritický obor Wα jsou hodnoty T, které jsou „příliš extrémní" pod H₀ – jejich pravděpodobnost pod H₀ je ≤ α.
Zamítáme H₀ ⟺ T ∈ Wα ⟺ θ₀ neleží v příslušném IS. Oba přístupy jsou ekvivalentní.
Interpretace p-hodnoty:
- p < α: zamítáme H₀ na hladině α
- p ≥ α: nezamítáme H₀ na hladině α
- Čím menší p, tím silnější důkaz proti H₀
- p-hodnota NEZNAMENÁ pravděpodobnost, že H₀ platí!
p-hodnota není pravděpodobnost, že H₀ platí. Je to pravděpodobnost (za předpokladu, že H₀ platí) dat alespoň tak extrémních. Malá p-hodnota říká: „data jsou velmi nepravděpodobná, pokud by H₀ platila."
🔄 Dvouvýběrové a párové problémy
Párový t-test: Pozorujeme páry (X₁, Y₁), ..., (Xₙ, Yₙ). Páry jsou navzájem nezávislé, ale uvnitř páru mohou být X, Y závislé. Testujeme H₀: μ₁ = μ₂.
Postup: Definujeme Zᵢ = Yᵢ − Xᵢ. Za H₀ je E[Zᵢ] = μdiff = 0. Použijeme jednovýběrový t-test pro Zᵢ (H₀: μdiff = 0).
Výšky 5 otců vs. jejich synů. Zᵢ = výška syna − výška otce: 6, 12, −3, 8, 7. Z̄ = 6, sZ = 5.52. T = 6·√5/5.52 = 2.43. Kritická hodnota t₀.₀₅,₄ = 2.132. Zamítáme H₀: synové jsou statisticky významně vyšší.
Dvouvýběrový t-test (nezávislé výběry): Testujeme H₀: μ₁ = μ₂ pro X₁,...,Xn₁ ~ N(μ₁, σ₁²) a Y₁,...,Yn₂ ~ N(μ₂, σ₂²).
| Předpoklad | Testová statistika | Stupně volnosti |
|---|---|---|
| σ₁² = σ₂² (shodný rozptyl) | T = (X̄ − Ȳ) / (s₁₂·√(1/n₁ + 1/n₂)), kde s₁₂ = √(((n₁−1)s²X + (n₂−1)s²Y) / (n₁+n₂−2)) | n₁ + n₂ − 2 |
| σ₁² ≠ σ₂² (různý rozptyl – Welch) | T = (X̄ − Ȳ) / √(s²X/n₁ + s²Y/n₂) | Welch-Satterthwaite vzorec |
F-test shody rozptylů: H₀: σ₁² = σ₂² vs Hₐ: σ₁² ≠ σ₂². Statistika T = s²X/s²Y ~ F(n₁−1, n₂−1) pod H₀ (Fisherovo-Snedecorovo F-rozdělení). Citlivý na normalitu!
📝 Shrnutí okruhu 2 – klíčové body
- Náhodný výběr: n i.i.d. veličin. Statistika: funkce výběru nezávisející na θ. Bodový odhad: nestranný (E[θ̂]=θ), konzistentní (θ̂→θ).
- Výběrový průměr X̄ₙ: nestranný a konzistentní odhad μ. Výběrový rozptyl s²ₙ (dělení n−1): nestranný odhad σ².
- CLV: X̄ₙ ≈ N(μ, σ²/n) pro velká n. Umožňuje konstrukci IS a testů pro libovolná rozdělení.
- IS pro μ: známé σ² → zα/2·σ/√n; neznámé σ² → tα/2,n−1·sₙ/√n. IS pro σ²: χ²-rozdělení (pouze pro normální).
- Testování hypotéz: H₀ vs Hₐ. Chyba I. druhu: zamítnutí pravdivé H₀ (pravděp. = α). Chyba II. druhu: nezamítnutí nepravdivé H₀. IS ↔ testová statistika/kritický obor.
- p-hodnota: minimální α pro zamítnutí. p < α → zamítáme H₀. Párový t-test: Zᵢ = Yᵢ−Xᵢ. Dvouvýběrový: shodný vs různý rozptyl.