Alapvető Statisztikai Fogalmak és Példa Azok Alkalmazására
Bevezetés: A statisztika széles körben használt tudományág, amely segít az adatok elemzésében és értelmezésében. Az alapvető statisztikai fogalmak, mint az átlag, a modus, a medián, a terjedelem és a szórás, fontosak az adatok összefoglalásában és azok eloszlásának megértésében. Ebben az anyagban bemutatjuk ezeket a fogalmakat, majd egy példán keresztül alkalmazzuk őket.
1. Átlag (áritmétiás közép): Az átlag az adatok összegzésének egyik legegyszerűbb módja. Az átlagot az összes adat összege osztva az adatok számával számoljuk ki.
Példa: Egy osztály diákjainak matematikai pontszámai: 85, 90, 75, 88, 92. Az átlag számítása: (85 + 90 + 75 + 88 + 92) / 5 = 88.
2. Modus (módus): A modus az az érték, amely a leggyakrabban előfordul egy adathalmazban.
Példa: Egy boltban egy héten át eladott napi péksütemények száma: 50, 60, 70, 70, 80. A modus a 70, mert ez az érték kétszer szerepel, míg a többi csak egyszer.
3. Medián: A medián az az érték, amely pontosan a középen van egy adathalmazban, ha az értékeket növekvő vagy csökkenő sorrendbe rendezzük.
Példa: Egy munkahelyen a dolgozók havi fizetései (ezer dollárban): 45, 50, 55, 60, 65, 70, 75. Az értékek középsője, vagyis a medián, 60 ezer dollár.
4. Terjedelem (Range): A terjedelem az adathalmaz legnagyobb és legkisebb értéke közötti különbséget mutatja.
Példa: Egy konyhában elkészített étel főzési ideje (perc): 25, 30, 35, 40, 60. A terjedelem, vagyis a legnagyobb és legkisebb érték közötti különbség: 60 perc – 25 perc = 35 perc.
5. Szórás (Standard Deviation): A szórás az adatok közötti átlagos távolságot méri az átlagtól. Nagyobb szórás azt jelzi, hogy az adatok szélesebb tartományban terjednek el.
A szórás kiszámításának lépései:
-
Kiszámítjuk az adatok számtani közepét (átlagot).
-
Kiszámítjuk az adatok eltéréseit az átlagtól (adat – átlag).
-
Minden eltérés értékét négyzetre emeljük.
-
Kiszámítjuk ezeknek a négyzeteltéréseknek az átlagát.
-
Végül ebből az átlagos négyzeteltérésekből négyzetgyököt vonunk.
Példa: Diákok matematikai teszteredményei
Az adatok: 78, 85, 92, 88, 92, 78, 90, 85, 88, 96, 78, 92.
1. Kiszámítjuk az átlagot:
Átlag = (78 + 85 + 92 + 88 + 92 + 78 + 90 + 85 + 88 + 96 + 78 + 92) / 12 = 1001 / 12 ≈ 83.42 (két tizedesjegyig kerekítve).
2. Kiszámítjuk az eltéréseket az átlagtól:
Eltérések: (78 – 83.42) = -5.42, (85 – 83.42) = 1.58, (92 – 83.42) = 8.58, (88 – 83.42) = 4.58, (92 – 83.42) = 8.58, (78 – 83.42) = -5.42, (90 – 83.42) = 6.58, (85 – 83.42) = 1.58, (88 – 83.42) = 4.58, (96 – 83.42) = 12.58, (78 – 83.42) = -5.42, (92 – 83.42) = 8.58.
3. Négyzeteket számolunk az eltérésekből:
Eltérések négyzetei: 29.39, 2.50, 73.72, 21.00, 73.72, 29.39, 43.43, 2.50, 21.00, 158.92, 29.39, 73.72.
4. Kiszámítjuk az eltérések négyzetének átlagát:
Az eltérések négyzetének átlaga: (29.39 + 2.50 + 73.72 + 21.00 + 73.72 + 29.39 + 43.43 + 2.50 + 21.00 + 158.92 + 29.39 + 73.72) / 12 ≈ 48.02.
5. Végül négyzetgyököt vonunk az átlagos négyzeteltérésekből:
Szórás = √48.02 ≈ 6.94 (két tizedesjegyig kerekítve).
Tehát a szórás adatainkban körülbelül 6.94, ami azt mutatja, hogy az adatok átlagosan kb. 6.94 egységnyi távolságra vannak az átlagtól.
Következtetés: Ezek az alapvető statisztikai fogalmak segítenek az adatok összefoglalásában és azok eloszlásának megértésében. Az átlag az adatok középső értékét mutatja, a modus a leggyakoribb értéket jelzi, a medián a középső értéket mutatja be, a terjedelem a legnagyobb és legkisebb értékek közötti különbséget számolja ki, míg a szórás az adatok közötti átlagos távolságot mutatja meg az átlagtól. Ezek a fogalmak kulcsfontosságúak a statisztikai elemzések során, és segítenek a döntéshozatalban és az adatok értelmezésében.
-
Források
- Valószínűségszámítás és statisztika (pte.hu)
- Valószínűségszámítás és statisztika (bme.hu)
- Valószínűségszámítás és statisztika – Faragó Csaba (faragocsaba.hu)
- Valószínűségszámítás a matematikában (tantaki.hu)
- Valószínűségszámítás | Matekarcok
- Valószínűségszámítás – Wikipédia (wikipedia.org)
- A medián és a kvartilisek gyakorlása
Kvintilisek: Az adathalmazt öt egyenlő részre osztják fel, és az értékek eloszlásának jobb megértéséhez használhatók. A kvintilisek olyan értékeket határoznak meg, amelyek az adatok 20%, 40%, 60%, 80% és 100% percentilisét reprezentálják.
Szextilisek: Az adathalmazt hat egyenlő részre osztják fel, és az értékek eloszlásának részletesebb elemzésére szolgálnak. A szextilisek hat értéket határoznak meg, amelyek az adatok 16.67%, 33.33%, 50%, 66.67%, 83.33% és 100% percentilisét reprezentálják.
Deszilisek: Az adathalmazt tíz egyenlő részre osztják fel, és az értékek eloszlásának finomabb elemzésére használhatók. A deszilisek tíz értéket határoznak meg, amelyek az adatok 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% és 100% percentilisét reprezentálják.
Ezenkívül vannak más százalékos mérőszámok is, mint például a 5. percentilis vagy a 95. percentilis, amelyek segíthetnek az adatok különösen extrém értékeinek azonosításában.
Ezek a mérőszámok és fogalmak segítik az adatelemzőket és a statisztikai elemzőket az adatok részletesebb vizsgálatában és az eloszlásuk pontosabb megértésében. Az alkalmazott mérőszámok az adatok jellegétől és a kutatás céljaitól függenek.
Kvanilisok:
A kvartilisok az adathalmaz négy egyenlő részre osztására szolgálnak, és három további kvartilis van, amelyeket az alsó kvartilis (Q1), a középső kvartilis (Q2) és a felső kvartilis (Q3) mellett használnak:
- Alsó kvartilis (Q1): Az adathalmaz negyedik részét (azaz az adatok 25%-át) jelöli, és az értékek 25. percentilisét reprezentálja. Az alsó kvartilist úgy számoljuk ki, hogy rendezzük az adathalmazt növekvő sorrendbe, majd megkeressük azt az értéket, amely az első és a második negyedet elválasztja.
- Középső kvartilis (Q2): Ez a medián, azaz az adathalmaz középső értéke. Az adathalmazt a medián alatt és felett két egyenlő részre osztja, tehát az adatok 50%-át tartalmazza. A középső kvartilist úgy számoljuk ki, hogy rendezzük az adathalmazt növekvő sorrendbe, majd megkeressük az értéket, amely az alsó és felső 50% -ot elválasztja.
- Felső kvartilis (Q3): Mint korábban említettem, ez az adathalmaz harmadik részét (azaz az adatok 75%-át) jelöli, és az értékek 75. percentilisét reprezentálja. A felső kvartilist úgy számoljuk ki, hogy rendezzük az adathalmazt növekvő sorrendbe, majd megkeressük azt az értéket, amely a harmadik és a negyedik negyedet elválasztja.
Ezek a kvartilisok hasznosak az adathalmazok eloszlásának és szóródásának elemzéséhez, és segítenek az extrém értékek (outlierek) azonosításában is. A dobozdiagram (box plot) készítésekor is használják őket, hogy az adatok eloszlását és terjedelmét szemléltessék.
Feladat: Egy matematikai teszteredményeket tartalmazó adathalmazt kell megvizsgálnod. Az alábbi pontszámokat rögzítették:
85, 92, 88, 78, 98, 87, 91, 84, 89, 95
Számítsd ki az alsó kvartilist (Q1), a mediánt (Q2 vagy középső kvartilis) és a felső kvartilist (Q3) az adott adathalmaz alapján!
Megoldás:
- Először is, rendezzük az adathalmazt növekvő sorrendbe:
78, 84, 85, 87, 88, 89, 91, 92, 95, 98
- Most számoljuk ki az alsó kvartilist (Q1). Az alsó kvartilis az első és a második negyedet választja el. Az első negyed adatai:
78, 84, 85, 87
Q1 az első negyed mediánja lesz, tehát:
Q1 = (84 + 85) / 2 = 84,5
- Következő lépésként számoljuk ki a mediánt (Q2 vagy középső kvartilis). Mivel az adathalmaz páros számú adatot tartalmaz, a medián az ötödik és hatodik adat közötti érték lesz:
Q2 = (87 + 88) / 2 = 87,5
- Végül számoljuk ki a felső kvartilist (Q3). A harmadik negyed adatai:
89, 91, 92, 95, 98
Q3 az harmadik negyed mediánja lesz, tehát:
Q3 = (92 + 95) / 2 = 93,5
Ezzel befejeztük a kvartilisek kiszámítását:
- Alsó kvartilis (Q1) = 84,5
- Medián (Q2) = 87,5
- Felső kvartilis (Q3) = 93,5
Ezek a kvartilisek segítenek megérteni az adathalmaz eloszlását és terjedelmét, és hasznos információkat nyújtanak az adatok középpontjáról és szóródásáról.
Kapcsolódó bejegyzések
- A Varázslatos Világ a Halmazelméletben
- A Varázslatos Oszthatóság Világa
- Valószínűségszámítás és Statisztika: A Tudományos Matematika Vicces és Érdekes Oldala
- A fraktálok varázslatos világa: Fedezd fel az ismétlődő mintázatok bámulatos univerzumát!
- A Fibonacci sorozat és az aranymetszés: Matematika, Művészet és a Természet Varázslata
Diagrammok
A statisztikában számos alapvető grafikus eszközt használnak az adatok elemzésére és az eredmények vizualizálására. Ezek közül néhány a következő:
- Oszlopdiagram (bar chart vagy bar graph): Az oszlopdiagram oszlopokból áll, amelyek magassága az adatok értékét ábrázolja. Jól alkalmazható kategórikus adatok vizualizálására vagy az értékek összehasonlítására.
- Vonalábra (line chart): A vonalábra egy vagy több vonalat jelenít meg, amelyek az idő vagy más folytonos változó függvényében ábrázolják az értékeket. Jól mutatja az időbeli trendeket és változásokat.
- Kördiagram (pie chart): A kördiagram egy kört használ, amelyet szektorokra osztanak, és az egyes szektorok százalékban mutatják be az adatokat. Gyakran használják a részarányok vagy kategóriák arányának bemutatására.
- Dobozi diagram (box plot vagy box-and-whisker plot): A dobozdiagram egy egyszerű, áttekinthető eszköz az adatok középpontjának, terjedelmének és szóródásának bemutatására. Az alsó és felső doboz határolja be az interkvartilis tartományt, a vonal középen a mediánt jelzi, míg az „ajkak” vagy „villák” az extrém értékeket ábrázolják.
- Hisztogram: A hisztogram az adatok eloszlását mutatja be az értékek gyakoriságának függvényében. Az adatokat az értékeik alapján csoportosítják, és oszlopokkal ábrázolják az egyes csoportok gyakoriságát.
- Pontdiagram (scatter plot): A pontdiagram az adatpontokat egy síkon helyezi el, és lehetővé teszi a két változó közötti összefüggés vagy korreláció vizsgálatát. Jól mutatja, hogy két változó között van-e kapcsolat.
- Kumulatív eloszlásdiagram (cumulative distribution plot): A kumulatív eloszlásdiagram a kumulatív gyakoriságot mutatja be az értékek függvényében. Segít megérteni, mennyi adat van egy adott küszöbérték alatt vagy felett.
Ezenkívül számos további speciális grafikon és diagram létezik, amelyeket a statisztikai elemzésekhez és adatvizualizációhoz alkalmazhatunk, például szórásdiagram, dobozdiagramok kombinációja (violin plot), radar diagram, stb. Az alkalmazott grafikon típusát az adatok jellegétől és az elemzési céloktól függően választják ki.