Valószínűségelmélet és Statisztika: Az Esélyek és Adatok Tudománya

Alapvető Statisztikai Fogalmak és Példa Azok Alkalmazására

Bevezetés: A statisztika széles körben használt tudományág, amely segít az adatok elemzésében és értelmezésében. Az alapvető statisztikai fogalmak, mint az átlag, a modus, a medián, a terjedelem és a szórás, fontosak az adatok összefoglalásában és azok eloszlásának megértésében. Ebben az anyagban bemutatjuk ezeket a fogalmakat, majd egy példán keresztül alkalmazzuk őket.

1. Átlag (áritmétiás közép): Az átlag az adatok összegzésének egyik legegyszerűbb módja. Az átlagot az összes adat összege osztva az adatok számával számoljuk ki.

Példa: Egy osztály diákjainak matematikai pontszámai: 85, 90, 75, 88, 92. Az átlag számítása: (85 + 90 + 75 + 88 + 92) / 5 = 88.

2. Modus (módus): A modus az az érték, amely a leggyakrabban előfordul egy adathalmazban.

Példa: Egy boltban egy héten át eladott napi péksütemények száma: 50, 60, 70, 70, 80. A modus a 70, mert ez az érték kétszer szerepel, míg a többi csak egyszer.

3. Medián: A medián az az érték, amely pontosan a középen van egy adathalmazban, ha az értékeket növekvő vagy csökkenő sorrendbe rendezzük.

Példa: Egy munkahelyen a dolgozók havi fizetései (ezer dollárban): 45, 50, 55, 60, 65, 70, 75. Az értékek középsője, vagyis a medián, 60 ezer dollár.

4. Terjedelem (Range): A terjedelem az adathalmaz legnagyobb és legkisebb értéke közötti különbséget mutatja.

Példa: Egy konyhában elkészített étel főzési ideje (perc): 25, 30, 35, 40, 60. A terjedelem, vagyis a legnagyobb és legkisebb érték közötti különbség: 60 perc – 25 perc = 35 perc.

5. Szórás (Standard Deviation): A szórás az adatok közötti átlagos távolságot méri az átlagtól. Nagyobb szórás azt jelzi, hogy az adatok szélesebb tartományban terjednek el.

A szórás kiszámításának lépései:

  1. Kiszámítjuk az adatok számtani közepét (átlagot).

  2. Kiszámítjuk az adatok eltéréseit az átlagtól (adat – átlag).

  3. Minden eltérés értékét négyzetre emeljük.

  4. Kiszámítjuk ezeknek a négyzeteltéréseknek az átlagát.

  5. Végül ebből az átlagos négyzeteltérésekből négyzetgyököt vonunk.

Példa: Diákok matematikai teszteredményei

Az adatok: 78, 85, 92, 88, 92, 78, 90, 85, 88, 96, 78, 92.

1. Kiszámítjuk az átlagot:

Átlag = (78 + 85 + 92 + 88 + 92 + 78 + 90 + 85 + 88 + 96 + 78 + 92) / 12 = 1001 / 12 ≈ 83.42 (két tizedesjegyig kerekítve).

2. Kiszámítjuk az eltéréseket az átlagtól:

Eltérések: (78 – 83.42) = -5.42, (85 – 83.42) = 1.58, (92 – 83.42) = 8.58, (88 – 83.42) = 4.58, (92 – 83.42) = 8.58, (78 – 83.42) = -5.42, (90 – 83.42) = 6.58, (85 – 83.42) = 1.58, (88 – 83.42) = 4.58, (96 – 83.42) = 12.58, (78 – 83.42) = -5.42, (92 – 83.42) = 8.58.

3. Négyzeteket számolunk az eltérésekből:

Eltérések négyzetei: 29.39, 2.50, 73.72, 21.00, 73.72, 29.39, 43.43, 2.50, 21.00, 158.92, 29.39, 73.72.

4. Kiszámítjuk az eltérések négyzetének átlagát:

Az eltérések négyzetének átlaga: (29.39 + 2.50 + 73.72 + 21.00 + 73.72 + 29.39 + 43.43 + 2.50 + 21.00 + 158.92 + 29.39 + 73.72) / 12 ≈ 48.02.

5. Végül négyzetgyököt vonunk az átlagos négyzeteltérésekből:

Szórás = √48.02 ≈ 6.94 (két tizedesjegyig kerekítve).

Tehát a szórás adatainkban körülbelül 6.94, ami azt mutatja, hogy az adatok átlagosan kb. 6.94 egységnyi távolságra vannak az átlagtól.

Következtetés: Ezek az alapvető statisztikai fogalmak segítenek az adatok összefoglalásában és azok eloszlásának megértésében. Az átlag az adatok középső értékét mutatja, a modus a leggyakoribb értéket jelzi, a medián a középső értéket mutatja be, a terjedelem a legnagyobb és legkisebb értékek közötti különbséget számolja ki, míg a szórás az adatok közötti átlagos távolságot mutatja meg az átlagtól. Ezek a fogalmak kulcsfontosságúak a statisztikai elemzések során, és segítenek a döntéshozatalban és az adatok értelmezésében.

Kvintilisek: Az adathalmazt öt egyenlő részre osztják fel, és az értékek eloszlásának jobb megértéséhez használhatók. A kvintilisek olyan értékeket határoznak meg, amelyek az adatok 20%, 40%, 60%, 80% és 100% percentilisét reprezentálják.

Szextilisek: Az adathalmazt hat egyenlő részre osztják fel, és az értékek eloszlásának részletesebb elemzésére szolgálnak. A szextilisek hat értéket határoznak meg, amelyek az adatok 16.67%, 33.33%, 50%, 66.67%, 83.33% és 100% percentilisét reprezentálják.

Deszilisek: Az adathalmazt tíz egyenlő részre osztják fel, és az értékek eloszlásának finomabb elemzésére használhatók. A deszilisek tíz értéket határoznak meg, amelyek az adatok 10%, 20%, 30%, 40%, 50%, 60%, 70%, 80%, 90% és 100% percentilisét reprezentálják.

Ezenkívül vannak más százalékos mérőszámok is, mint például a 5. percentilis vagy a 95. percentilis, amelyek segíthetnek az adatok különösen extrém értékeinek azonosításában.

Ezek a mérőszámok és fogalmak segítik az adatelemzőket és a statisztikai elemzőket az adatok részletesebb vizsgálatában és az eloszlásuk pontosabb megértésében. Az alkalmazott mérőszámok az adatok jellegétől és a kutatás céljaitól függenek.

Kvanilisok:

A kvartilisok az adathalmaz négy egyenlő részre osztására szolgálnak, és három további kvartilis van, amelyeket az alsó kvartilis (Q1), a középső kvartilis (Q2) és a felső kvartilis (Q3) mellett használnak:

  1. Alsó kvartilis (Q1): Az adathalmaz negyedik részét (azaz az adatok 25%-át) jelöli, és az értékek 25. percentilisét reprezentálja. Az alsó kvartilist úgy számoljuk ki, hogy rendezzük az adathalmazt növekvő sorrendbe, majd megkeressük azt az értéket, amely az első és a második negyedet elválasztja.
  2. Középső kvartilis (Q2): Ez a medián, azaz az adathalmaz középső értéke. Az adathalmazt a medián alatt és felett két egyenlő részre osztja, tehát az adatok 50%-át tartalmazza. A középső kvartilist úgy számoljuk ki, hogy rendezzük az adathalmazt növekvő sorrendbe, majd megkeressük az értéket, amely az alsó és felső 50% -ot elválasztja.
  3. Felső kvartilis (Q3): Mint korábban említettem, ez az adathalmaz harmadik részét (azaz az adatok 75%-át) jelöli, és az értékek 75. percentilisét reprezentálja. A felső kvartilist úgy számoljuk ki, hogy rendezzük az adathalmazt növekvő sorrendbe, majd megkeressük azt az értéket, amely a harmadik és a negyedik negyedet elválasztja.

Ezek a kvartilisok hasznosak az adathalmazok eloszlásának és szóródásának elemzéséhez, és segítenek az extrém értékek (outlierek) azonosításában is. A dobozdiagram (box plot) készítésekor is használják őket, hogy az adatok eloszlását és terjedelmét szemléltessék.

Feladat: Egy matematikai teszteredményeket tartalmazó adathalmazt kell megvizsgálnod. Az alábbi pontszámokat rögzítették:

85, 92, 88, 78, 98, 87, 91, 84, 89, 95

Számítsd ki az alsó kvartilist (Q1), a mediánt (Q2 vagy középső kvartilis) és a felső kvartilist (Q3) az adott adathalmaz alapján!

Megoldás:

  1. Először is, rendezzük az adathalmazt növekvő sorrendbe:

78, 84, 85, 87, 88, 89, 91, 92, 95, 98

  1. Most számoljuk ki az alsó kvartilist (Q1). Az alsó kvartilis az első és a második negyedet választja el. Az első negyed adatai:

78, 84, 85, 87

Q1 az első negyed mediánja lesz, tehát:

Q1 = (84 + 85) / 2 = 84,5

  1. Következő lépésként számoljuk ki a mediánt (Q2 vagy középső kvartilis). Mivel az adathalmaz páros számú adatot tartalmaz, a medián az ötödik és hatodik adat közötti érték lesz:

Q2 = (87 + 88) / 2 = 87,5

  1. Végül számoljuk ki a felső kvartilist (Q3). A harmadik negyed adatai:

89, 91, 92, 95, 98

Q3 az harmadik negyed mediánja lesz, tehát:

Q3 = (92 + 95) / 2 = 93,5

Ezzel befejeztük a kvartilisek kiszámítását:

  • Alsó kvartilis (Q1) = 84,5
  • Medián (Q2) = 87,5
  • Felső kvartilis (Q3) = 93,5

Ezek a kvartilisek segítenek megérteni az adathalmaz eloszlását és terjedelmét, és hasznos információkat nyújtanak az adatok középpontjáról és szóródásáról.

Diagrammok

A statisztikában számos alapvető grafikus eszközt használnak az adatok elemzésére és az eredmények vizualizálására. Ezek közül néhány a következő:

  1. Oszlopdiagram (bar chart vagy bar graph): Az oszlopdiagram oszlopokból áll, amelyek magassága az adatok értékét ábrázolja. Jól alkalmazható kategórikus adatok vizualizálására vagy az értékek összehasonlítására.
  2. Vonalábra (line chart): A vonalábra egy vagy több vonalat jelenít meg, amelyek az idő vagy más folytonos változó függvényében ábrázolják az értékeket. Jól mutatja az időbeli trendeket és változásokat.
  3. Kördiagram (pie chart): A kördiagram egy kört használ, amelyet szektorokra osztanak, és az egyes szektorok százalékban mutatják be az adatokat. Gyakran használják a részarányok vagy kategóriák arányának bemutatására.
  4. Dobozi diagram (box plot vagy box-and-whisker plot): A dobozdiagram egy egyszerű, áttekinthető eszköz az adatok középpontjának, terjedelmének és szóródásának bemutatására. Az alsó és felső doboz határolja be az interkvartilis tartományt, a vonal középen a mediánt jelzi, míg az „ajkak” vagy „villák” az extrém értékeket ábrázolják.
  5. Hisztogram: A hisztogram az adatok eloszlását mutatja be az értékek gyakoriságának függvényében. Az adatokat az értékeik alapján csoportosítják, és oszlopokkal ábrázolják az egyes csoportok gyakoriságát.
  6. Pontdiagram (scatter plot): A pontdiagram az adatpontokat egy síkon helyezi el, és lehetővé teszi a két változó közötti összefüggés vagy korreláció vizsgálatát. Jól mutatja, hogy két változó között van-e kapcsolat.
  7. Kumulatív eloszlásdiagram (cumulative distribution plot): A kumulatív eloszlásdiagram a kumulatív gyakoriságot mutatja be az értékek függvényében. Segít megérteni, mennyi adat van egy adott küszöbérték alatt vagy felett.

Ezenkívül számos további speciális grafikon és diagram létezik, amelyeket a statisztikai elemzésekhez és adatvizualizációhoz alkalmazhatunk, például szórásdiagram, dobozdiagramok kombinációja (violin plot), radar diagram, stb. Az alkalmazott grafikon típusát az adatok jellegétől és az elemzési céloktól függően választják ki.

Példa táblázat>