Structurele kenmerken van de variatieverdelingsreeksen.

Structurele kenmerken van de variatieverdelingsreeksen.

Stel dat u het gemiddelde wilt bepalen in een verdeling van studentenscores of in een steekproef van kwaliteitsborgingsgegevens. Om dit te doen, moet u de mediaan van een reeks getallen berekenen met behulp van de MEDIAAN-functie.

Deze functie is een manier om de centrale tendens te meten, dat wil zeggen de locatie van het middelpunt van een reeks getallen in een statistische verdeling. Er zijn drie meest gebruikelijke manieren om de centrale tendens te bepalen.

    Gemiddelde waarde- dit is een waarde die een rekenkundig gemiddelde is, dat wil zeggen dat deze wordt berekend door een reeks getallen op te tellen en vervolgens de resulterende som te delen door hun aantal. Het gemiddelde van de getallen 2, 3, 3, 5, 7 en 10 is bijvoorbeeld 5 (het resultaat van het delen van de som van deze getallen, namelijk 30, door hun getal, namelijk 6).

    Mediaan- een getal dat het midden is van een reeks getallen: de helft van de getallen heeft waarden die groter zijn dan de mediaan, en de helft van de getallen heeft waarden die kleiner zijn. De mediaan voor de getallen 2, 3, 3, 5, 7 en 10 zou bijvoorbeeld 4 zijn.

    Mode- het getal dat het vaakst voorkomt in een bepaalde reeks getallen. De modus voor de getallen 2, 3, 3, 5, 7 en 10 zou bijvoorbeeld 3 zijn.

Bij een symmetrische verdeling van een reeks getallen zullen alle drie de waarden van de centrale tendens samenvallen. Wanneer de verdeling van veel getallen vertekend is, kunnen de waarden verschillen.

De schermafbeeldingen in dit artikel zijn afkomstig uit Excel 2016. Als u een andere versie gebruikt, kan de interface enigszins afwijken, maar de functies zijn hetzelfde.

Voorbeeld

Om dit voorbeeld begrijpelijker te maken, kopieert u het op een blanco vel papier.

Advies: Om te schakelen tussen het bekijken van de resultaten en het bekijken van de formules die deze resultaten opleveren, drukt u op CTRL+` (apostrof) of op het tabblad Formules in groep Afhankelijkheden van formules Klik op de knop Formules weergeven.

Mediane ik ze noemen de waarde van het attribuut dat in het midden van de gerangschikte reeks valt en verdelen deze in twee delen die gelijk zijn in aantal eenheden. Dus in de gerangschikte rij van de verdeling heeft de ene helft van de rij attribuutwaarden die de mediaan overschrijden, de andere helft is kleiner dan de mediaan.

De mediaan wordt gebruikt in plaats van het rekenkundig gemiddelde wanneer de extreme opties van de gerangschikte reeksen (kleinste en grootste) in vergelijking met de rest te groot of te klein blijken te zijn.

IN discreet in een variatiereeks die een oneven aantal eenheden bevat, is de mediaan gelijk aan de variant van het kenmerk met het nummer:
,
waarbij N het aantal bevolkingseenheden is.
In een discrete reeks bestaande uit een even aantal populatie-eenheden wordt de mediaan gedefinieerd als het gemiddelde van de opties met getallen en:
.
In de verdeling van werknemers naar anciënniteit is de mediaan gelijk aan het gemiddelde van de opties met nummer 10 in de gerangschikte reeks: 2 = 5 en 10: 2 + 1 = 6. De opties voor het vijfde en zesde attribuut zijn gelijk tot 4 jaar dus
van het jaar
Bij het berekenen van de mediaan in interval rij eerst vinden gemiddelde interval, (d.w.z. met de mediaan), waarvoor geaccumuleerde frequenties of frequenties worden gebruikt. De mediaan is een interval waarvan de geaccumuleerde frequentie gelijk is aan of groter is dan de helft van het totale volume van de bevolking. De mediaanwaarde wordt vervolgens berekend met behulp van de formule:
,
waar is de ondergrens van het mediane interval;
– breedte van het mediaaninterval;
– geaccumuleerde frequentie van het interval voorafgaand aan de mediaan;
– frequentie van het mediane interval.
Laten we de mediaan van de verdeling van werknemers naar salaris berekenen (zie lezing “Samenvatting en groepering van statistische gegevens”).
De mediaan is het salarisbereik van 800-900 UAH, aangezien de cumulatieve frequentie 17 is, wat meer is dan de helft van de som van alle frequenties (). Dan
Ik=800+100 UAH.
De verkregen waarde geeft aan dat de helft van de werknemers een loon heeft van minder dan 875 UAH, maar dit is boven het gemiddelde.
Om de mediaan te bepalen, kunt u cumulatieve frequenties gebruiken in plaats van cumulatieve frequenties.
De mediaan is, net als de modus, niet afhankelijk van de extreme waarden van de variant en wordt daarom ook gebruikt om het centrum te karakteriseren in distributiereeksen met onzekere grenzen.
Mediaan eigendom : de som van de absolute waarden van afwijkingen van de mediaan is kleiner dan van enige andere waarde (inclusief van het rekenkundig gemiddelde):

Deze eigenschap van de middenberm wordt in het transport gebruikt bij het ontwerpen van de locatie van tram- en trolleybushaltes, benzinestations, verzamelpunten, enz.
Voorbeeld. Er zijn 10 garages langs de 100 km lange snelweg. Om de constructie van een tankstation te ontwerpen, zijn voor elke garage gegevens verzameld over het aantal verwachte ritten naar het tankstation.
Tabel 2 - Gegevens over het aantal ritten naar het tankstation per garage.

Het is noodzakelijk om een ​​benzinestation te installeren, zodat de totale kilometerstand van voertuigen voor het tanken minimaal is.
Optie 1. Als een benzinestation in het midden van de snelweg wordt geplaatst, d.w.z. op de 50e kilometer (het midden van het bereik van veranderingen in het attribuut), dan is de kilometerstand, rekening houdend met het aantal ritten:
a) in één richting:
;
b) in het tegenovergestelde:
;
c) Totaal aantal kilometers in beide richtingen: .

Optie 2. Als een benzinestation op het middengedeelte van de snelweg wordt geplaatst, bepaald door de rekenkundig gemiddelde formule, rekening houdend met het aantal ritten:

De mediaan kan grafisch worden bepaald met behulp van het cumulatief (zie lezing “Samenvatting en groepering van statistische gegevens”). Om dit te doen, wordt de laatste ordinaat, gelijk aan de som van alle frequenties of frequenties, in tweeën gedeeld. Vanaf het resulterende punt wordt een loodlijn hersteld totdat deze het cumulatieve punt snijdt. De abscis van het snijpunt geeft de mediaanwaarde aan.

Om de mediaan in MS EXCEL te berekenen, is er een speciale functie MEDIAN(). In dit artikel zullen we de mediaan definiëren en leren hoe we deze kunnen berekenen voor een steekproef en voor een gegeven verdelingswet van een willekeurige variabele.

Laten we beginnen met medianen Voor monsters(dat wil zeggen voor een vaste reeks waarden).

Voorbeeld mediaan

Mediaan(mediaan) is een getal dat het midden is van een reeks getallen: de helft van de getallen in de reeks is groter dan mediaan, en de helft van de getallen is kleiner dan mediaan.

Rekenen medianen eerst nodig (waarden in steekproef). Bijvoorbeeld, mediaan voor monster (2; 3; 3; 4 ; 5; 7; 10) wordt 4. Omdat gewoon binnen steekproef 7 waarden, waarvan er drie kleiner zijn dan 4 (d.w.z. 2; 3; 3), en drie waarden zijn groter (d.w.z. 5; 7; 10).

Als de set een even aantal getallen bevat, wordt dit berekend voor de twee getallen in het midden van de set. Bijvoorbeeld, mediaan voor monster (2; 3; 3 ; 6 ; 7; 10) zal 4,5 zijn, omdat (3+6)/2=4,5.

Voor het bepalen medianen in MS EXCEL is er een functie met dezelfde naam MEDIAN(), de Engelse versie van MEDIAN().

Mediaan valt niet noodzakelijk samen met . Er vindt alleen een match plaats als de waarden in de steekproef symmetrisch verdeeld zijn ten opzichte van gemiddeld. Bijvoorbeeld voor monsters (1; 2; 3 ; 4 ; 5; 6) mediaan En gemiddeld gelijk aan 3,5.

Indien gekend Distributie functie F(x) of waarschijnlijkheidsdichtheidsfunctie P(X), Dat mediaan kan worden gevonden uit de vergelijking:

Nadat we deze vergelijking bijvoorbeeld analytisch hebben opgelost voor de lognormale verdeling lnN(μ; σ 2), verkrijgen we dat mediaan berekend met de formule =EXP(μ). Wanneer μ=0, is de mediaan 1.

Let op het punt Distributiefuncties, waarvoor F(x)=0,5(zie foto hierboven) . De abscis van dit punt is gelijk aan 1. Dit is de waarde van de mediaan, die uiteraard samenvalt met de eerder berekende waarde met behulp van de em-formule.

In MS-EXCEL mediaan Voor lognormale verdeling LnN(0;1) kan worden berekend met behulp van de formule =LOGNORM.REV(0,5,0,1).

Opmerking: Bedenk dat de integraal van over het gehele domein van het specificeren is de willekeurige variabele gelijk aan één.

Daarom verdeelt de mediaanlijn (x=mediaan) het gebied onder de grafiek waarschijnlijkheidsdichtheidsfunctie in twee gelijke delen.

De MEDIAAN-functie in Excel wordt gebruikt om een ​​bereik van numerieke waarden te analyseren en retourneert een getal dat het midden is van de set die wordt onderzocht (de mediaan). Dat wil zeggen, deze functie verdeelt een reeks getallen voorwaardelijk in twee subsets, waarvan de eerste getallen bevat die kleiner zijn dan de mediaan, en de tweede - meer. De mediaan is een van de vele methoden om de centrale tendens van een interessegebied te bepalen.

Voorbeelden van het gebruik van de MEDIAAN-functie in Excel

Bij het bestuderen van leeftijdsgroepen van studenten is gebruik gemaakt van gegevens van een willekeurig geselecteerde groep studenten aan een universiteit. De taak is om de gemiddelde leeftijd van studenten te bepalen.

Initiële data:

Formule voor berekening:


Argumentbeschrijving:

  • B3:B15 – bereik van onderzochte leeftijden.

Resultaat:

Dat wil zeggen dat er studenten in de groep zijn die jonger zijn dan 21 jaar en ouder zijn dan deze waarde.



Vergelijking van de functies MEDIAAN en GEMIDDELDE voor het berekenen van de gemiddelde waarde

Tijdens de avondrondes in het ziekenhuis werd bij iedere patiënt de lichaamstemperatuur gemeten. Demonstreer het nut van het gebruik van de mediaanparameter in plaats van de gemiddelde waarde om een ​​reeks verkregen waarden te onderzoeken.

Initiële data:

Formule voor het vinden van het gemiddelde:

Formule voor het vinden van de mediaan:

Zoals uit de gemiddelde waarde blijkt, is de temperatuur van patiënten gemiddeld hoger dan normaal, maar dit is niet waar. Uit de mediaan blijkt dat minstens de helft van de patiënten een normale lichaamstemperatuur heeft, niet hoger dan 36,6.

Aandacht! Een andere methode om de centrale tendens te bepalen is de modus (de meest voorkomende waarde in het onderzochte bereik). Om de centrale tendens in Excel te bepalen, moet u de MODE-functie gebruiken. Houd er rekening mee dat in dit voorbeeld de waarden van de mediaan en de modus hetzelfde zijn:

Dat wil zeggen dat de mediaanwaarde die één set verdeelt in subsets van kleinere en grotere waarden ook de meest voorkomende waarde in de set is. Zoals je kunt zien, hebben de meeste patiënten een temperatuur van 36,6.

Een voorbeeld van het berekenen van de mediaan in statistische analyse in Excel

Voorbeeld 3. Er werken 3 verkopers in een winkel. Op basis van de resultaten van de afgelopen 10 dagen is het noodzakelijk om te bepalen welke werknemer de bonus krijgt. Bij het kiezen van de beste werknemer wordt rekening gehouden met de mate van efficiëntie van zijn werk, en niet met het aantal verkochte goederen.

Originele gegevenstabel:


Om de efficiëntie te karakteriseren, zullen we drie indicatoren tegelijk gebruiken: gemiddelde waarde, mediaan en modus. Laten we ze voor elke werknemer bepalen met behulp van respectievelijk de formules GEMIDDELDE, MEDIAAN en MODUS:


Om de mate van gegevensverstrooiing te bepalen, gebruiken we een waarde die de totale waarde is van de modulus van het verschil tussen respectievelijk de gemiddelde waarde en modus, gemiddelde waarde en mediaan. Dat wil zeggen de coëfficiënt x=|av-med|+|av-mod|, waarbij:

  • av – gemiddelde waarde;
  • gemiddeld – mediaan;
  • mod-mode.

Laten we de waarde van de x-coëfficiënt voor de eerste verkoper berekenen:

Voor andere verkopers voeren wij op vergelijkbare wijze berekeningen uit. Resultaten:


Laten we bepalen aan welke verkoper de bonus wordt gegeven:

Opmerking: de functie KLEIN retourneert de eerste minimumwaarde uit het beschouwde bereik van x-coëfficiëntwaarden.


De x-coëfficiënt is een bepaald kwantitatief kenmerk van de stabiliteit van het werk van verkopers, geïntroduceerd door de winkeleconoom. Met zijn hulp was het mogelijk om het bereik met de kleinste afwijkingen in waarden te bepalen. Deze methode laat zien hoe drie methoden voor het bepalen van de centrale tendens tegelijk kunnen worden gebruikt om de meest betrouwbare resultaten te verkrijgen.

Kenmerken van het gebruik van de MEDIAAN-functie in Excel

De functie heeft de volgende syntaxis:

MEDIAAN(getal1; [getal2];...)

Beschrijving van de argumenten:

  • getal1 – een vereist argument dat de eerste numerieke waarde in het onderzochte bereik karakteriseert;
  • [getal2] – optionele tweede (en daaropvolgende argumenten, maximaal 255 argumenten in totaal), die de tweede en volgende waarden van het onderzochte bereik karakteriseren.

Opmerkingen 1:

  1. Bij het maken van berekeningen is het handiger om het hele bereik van waarden die worden bestudeerd in één keer over te dragen in plaats van achtereenvolgens argumenten in te voeren.
  2. De geaccepteerde argumenten zijn numerieke gegevens, namen die getallen bevatten, gegevens van het referentietype en arrays (bijvoorbeeld =MEDIAN((1,2,3,5,7,10))).
  3. Bij het berekenen van de mediaan wordt rekening gehouden met cellen die lege waarden bevatten of de logische TRUE, FALSE, die respectievelijk worden geïnterpreteerd als de numerieke waarden 1 en 0. Het resultaat van het uitvoeren van een functie met logische waarden in de argumenten (TRUE; FALSE) is bijvoorbeeld equivalent aan het resultaat van het uitvoeren ervan met argumenten (1;0) en is gelijk aan 0,5.
  4. Als een of meer functieargumenten tekstwaarden accepteren die niet naar numerieke waarden kunnen worden geconverteerd, of foutcodes bevatten, retourneert de functie de foutcode #WAARDE!
  5. Er kunnen andere Excel-functies worden gebruikt om de mediaan van een steekproef te bepalen: PERCENTILE.IN, QUARTILE.IN, MAX Gebruiksvoorbeelden:
  • =PERCENTIEL.IN(A1:A10;0,5), aangezien de mediaan per definitie het 50e percentiel is.
  • =KWARTIEL.AAN(A1:A10;2), aangezien de mediaan het 2e kwartiel is.
  • =HOOG(A1:A9,COUNT(A1:A9)/2), maar alleen als het aantal getallen in het bereik een oneven getal is.

Opmerkingen 2:

  1. Als in het onderzochte bereik alle getallen symmetrisch rond het gemiddelde zijn verdeeld, zullen het rekenkundig gemiddelde en de mediaan voor dit bereik gelijkwaardig zijn.
  2. Bij grote afwijkingen van gegevens binnen het bereik (“spreiding” van waarden) weerspiegelt de mediaan de trend in de verdeling van waarden beter dan het rekenkundig gemiddelde. Een uitstekend voorbeeld is het gebruik van de mediaan om het werkelijke salarisniveau van de bevolking van een staat te bepalen waar ambtenaren een orde van grootte meer verdienen dan gewone burgers.
  3. Het bereik van waarden dat wordt bestudeerd, kan het volgende bevatten:
  • Een oneven aantal cijfers. In dit geval zal de mediaan één enkel getal zijn dat het bereik in respectievelijk twee subsets van grotere en kleinere waarden verdeelt;
  • Even aantal cijfers. Vervolgens wordt de mediaan berekend als het rekenkundig gemiddelde van twee numerieke waarden die de set in de twee hierboven aangegeven subsets verdelen.

Samen met gemiddelde waarden worden structurele gemiddelden berekend als statistische kenmerken van variatiereeksen van verdelingen - mode En mediaan.
Mode(Mo) vertegenwoordigt de waarde van het onderzochte kenmerk, herhaald met de grootste frequentie, d.w.z. modus – de waarde van een kenmerk dat het vaakst voorkomt.
Mediaan(Ik) is de waarde van het attribuut dat in het midden van de gerangschikte (geordende) populatie valt, d.w.z. mediaan is de centrale waarde van een variatiereeks.
De belangrijkste eigenschap van de mediaan is dat de som van de absolute afwijkingen van de attribuutwaarden van de mediaan kleiner is dan van elke andere waarde ∑|x i - Me|=min.

Bepalen van de modus en de mediaan op basis van niet-gegroepeerde gegevens

Laat ons nadenken bepaling van modus en mediaan uit niet-gegroepeerde gegevens. Stel dat een werkteam bestaande uit 9 personen de volgende tariefcategorieën heeft: 4 3 4 5 3 3 6 2 6. Aangezien deze brigade de meeste werknemers van de 3e categorie heeft, zal deze tariefcategorie modaal zijn. Ma = 3.
Om de mediaan te bepalen is het noodzakelijk om een ​​rangschikking uit te voeren: 2 3 3 3 4 4 5 6 6 . De centrale werknemer in deze reeks is een werknemer van de 4e categorie. Deze categorie zal daarom de mediaan vormen. Als de gerangschikte reeks een even aantal eenheden omvat, wordt de mediaan gedefinieerd als het gemiddelde van de twee centrale waarden.
Als de modus de meest voorkomende variant van de attribuutwaarde weerspiegelt, vervult de mediaan praktisch de functies van het gemiddelde voor een heterogene populatie die niet voldoet aan de normale verdelingswet. Laten we de cognitieve betekenis ervan illustreren met het volgende voorbeeld.
Laten we zeggen dat we het gemiddelde inkomen moeten karakteriseren van een groep mensen bestaande uit 100 mensen, waarvan er 99 een inkomen hebben tussen 100 en 200 dollar per maand, en het maandinkomen van laatstgenoemde is 50.000 dollar (Tabel 1).
Tabel 1 - Maandelijks inkomen van de onderzochte groep mensen. Als we het rekenkundig gemiddelde gebruiken, krijgen we een gemiddeld inkomen van ongeveer $600 - $700, wat weinig gemeen heeft met het inkomen van het grootste deel van de groep. De mediaan, in dit geval gelijk aan Ik = 163 dollar, zal ons in staat stellen een objectieve beschrijving te geven van het inkomensniveau van 99% van deze groep mensen.
Laten we overwegen om de modus en de mediaan te bepalen met behulp van gegroepeerde gegevens (verdelingsreeksen).
Laten we aannemen dat de verdeling van werknemers van de gehele onderneming als geheel volgens tariefcategorie de volgende vorm heeft (Tabel 2).
Tabel 2 - Verdeling van werknemers in ondernemingen per tariefcategorie

Berekening van modus en mediaan voor een discrete reeks

Berekening van modus en mediaan voor intervalreeksen

Berekening van modus en mediaan voor een variatiereeks

Bepaling van de modus uit een discrete variatiereeks

Er wordt gebruik gemaakt van een eerder geconstrueerde reeks attribuutwaarden, gesorteerd op waarde. Als de steekproefomvang oneven is, nemen we de centrale waarde; als de steekproefomvang gelijk is, nemen we het rekenkundig gemiddelde van de twee centrale waarden.
Bepaling van de modus uit een discrete variatiereeks: de 5e tariefcategorie heeft de hoogste frequentie (60 personen) en is dus modaal. Ma = 5.
Om de mediaanwaarde van een kenmerk te bepalen, wordt het getal van de mediaaneenheid van de reeks (N Me) gevonden met behulp van de volgende formule: , waarbij n het volume van de populatie is.
In ons geval: .
De resulterende fractionele waarde, die altijd voorkomt als het aantal eenheden in de populatie even is, geeft aan dat het exacte middelpunt tussen 95 en 96 werknemers ligt. Het is noodzakelijk om te bepalen tot welke groep de werknemers met deze serienummers behoren. Dit kan worden gedaan door de geaccumuleerde frequenties te berekenen. Er zijn geen werknemers met deze aantallen in de eerste groep, waar er slechts 12 mensen zijn, en er zijn er geen in de tweede groep (12+48=60). De 95e en 96e werknemers behoren tot de derde groep (12+48+56=116), dus de mediaan is de 4e tariefcategorie.

Berekening van modus en mediaan in intervalreeksen

In tegenstelling tot discrete variatiereeksen vereist het bepalen van de modus en de mediaan uit intervalreeksen bepaalde berekeningen op basis van de volgende formules:
, (5.6)
Waar x 0– de ondergrens van het modale interval (het interval met de hoogste frequentie heet modaal);
i– de waarde van het modale interval;
f Mo– frequentie van het modale interval;
f Ma -1– frequentie van het interval voorafgaand aan het modale interval;
f Mo +1– frequentie van het interval dat volgt op het modale interval.
(5.7)
Waar x 0– de ondergrens van het mediaaninterval (de mediaan is het eerste interval waarvan de geaccumuleerde frequentie de helft van de totale som van frequenties overschrijdt);
i– de waarde van het mediaaninterval;
S Ik -1– geaccumuleerd interval voorafgaand aan de mediaan;
fMe– frequentie van het mediane interval.
Laten we de toepassing van deze formules illustreren met behulp van de gegevens in de tabel. 3.
Het interval met grenzen 60 – 80 in deze verdeling zal modaal zijn, omdat het heeft de hoogste frequentie. Met behulp van formule (5.6) definiëren we de modus:

Om het mediaaninterval vast te stellen, is het noodzakelijk om de geaccumuleerde frequentie van elk volgend interval te bepalen totdat deze de helft van de som van de geaccumuleerde frequenties overschrijdt (in ons geval 50%) (Tabel 5.11).
Er werd vastgesteld dat de mediaan het interval is met grenzen van 100 - 120 duizend roebel. Laten we nu de mediaan bepalen:

Tabel 3 - Verdeling van de bevolking van de Russische Federatie naar niveau van het gemiddelde nominale monetaire inkomen per hoofd van de bevolking in maart 1994.
Groepen op basis van het gemiddelde maandinkomen per hoofd van de bevolking, duizend roebel.Bevolkingsaandeel, %
Tot 201,4
20 – 40 7,5
40 – 60 11,9
60 – 80 12,7
80 – 100 11,7
100 – 120 10,0
120 – 140 8,3
140 –160 6,8
160 – 180 5,5
180 – 200 4,4
200 – 220 3,5
220 – 240 2,9
240 – 260 2,3
260 – 280 1,9
280 – 300 1,5
Meer dan 3007,7
Totaal100,0

Tabel 4 - Bepaling van het mediane interval
Het rekenkundig gemiddelde, de modus en de mediaan kunnen dus worden gebruikt als een gegeneraliseerd kenmerk van de waarden van een bepaald attribuut voor eenheden van een gerangschikte populatie.
Het belangrijkste kenmerk van het distributiecentrum is het rekenkundig gemiddelde, dat wordt gekenmerkt door het feit dat alle afwijkingen daarvan (positief en negatief) optellen tot nul. De mediaan wordt gekenmerkt door het feit dat de som van de afwijkingen ervan in modulus minimaal is, en de modus is de waarde van het attribuut dat het vaakst voorkomt.
De verhouding tussen de modus, de mediaan en het rekenkundig gemiddelde geeft de aard van de verdeling van het kenmerk in het aggregaat aan en stelt ons in staat de asymmetrie ervan te evalueren. Bij symmetrische verdelingen vallen alle drie de kenmerken samen. Hoe groter de discrepantie tussen de modus en het rekenkundig gemiddelde, hoe asymmetrischer de reeks. Voor matig asymmetrische reeksen is het verschil tussen de modus en het rekenkundig gemiddelde ongeveer drie keer groter dan het verschil tussen de mediaan en het gemiddelde, namelijk:
|Mo –`x| = 3 |Ik –`x|.

Bepaling van modus en mediaan via grafische methode

De modus en de mediaan in een intervalreeks kunnen grafisch worden bepaald. De modus wordt bepaald door het distributiehistogram. Om dit te doen, selecteert u de hoogste rechthoek, die in dit geval modaal is. Vervolgens verbinden we het rechter hoekpunt van de modale rechthoek met de rechterbovenhoek van de vorige rechthoek. En het linkerhoekpunt van de modale rechthoek - met de linkerbovenhoek van de daaropvolgende rechthoek. Vanaf het punt van hun snijpunt verlagen we de loodlijn op de abscis-as. De abscis van het snijpunt van deze lijnen zal de distributiemodus zijn (Fig. 5.3).


Rijst. 5.3. Grafische bepaling van de modus met behulp van een histogram.


Rijst. 5.4. Grafische bepaling van de mediaan door cumuleren
Om de mediaan te bepalen vanaf een punt op de schaal van geaccumuleerde frequenties (frequenties) dat overeenkomt met 50%, tekent u een rechte lijn evenwijdig aan de abscis-as totdat deze de cumulatieve snijdt. Vervolgens wordt vanaf het snijpunt een loodlijn naar de x-as verlaagd. De abscis van het snijpunt is de mediaan.

Kwartielen, decielen, percentielen

Op dezelfde manier kunt u, door de mediaan in de variatiereeks van de verdeling te vinden, de waarde van het attribuut voor elke eenheid van de gerangschikte reeks vinden. U kunt dus bijvoorbeeld de waarde van het attribuut vinden voor eenheden die een reeks in vier gelijke delen verdelen, in 10 of 100 delen. Deze waarden worden “kwartielen”, “decielen”, “percentielen” genoemd.
Kwartielen vertegenwoordigen de waarde van een kenmerk dat de gerangschikte populatie in vier gelijke delen verdeelt.
Er is een lager kwartiel (Q 1), dat ¼ van de populatie met de laagste waarden van het attribuut scheidt, en een hoger kwartiel (Q 3), dat ¼ van het deel met de hoogste waarden van het attribuut scheidt. Dit betekent dat 25% van de eenheden in de populatie kleiner in waarde Q 1 zullen zijn; 25% van de eenheden zal tussen Q1 en Q2 aanwezig zijn; 25% ligt tussen Q2 en Q3, en de overige 25% ligt boven Q3. Het middelste kwartiel van het tweede kwartaal is de mediaan.
Om kwartielen te berekenen met behulp van een intervalvariatiereeks, worden de volgende formules gebruikt:
, ,
Waar xV1– de ondergrens van het interval dat het onderste kwartiel bevat (het interval wordt bepaald door de geaccumuleerde frequentie, waarbij de eerste groter is dan 25%);
xV3– de ondergrens van het interval dat het bovenste kwartiel omvat (het interval wordt bepaald door de geaccumuleerde frequentie, waarbij de eerste groter is dan 75%);
i– intervalgrootte;
SQ 1-1– de geaccumuleerde frequentie van het interval voorafgaand aan het interval dat het onderste kwartiel bevat;
SQ 3-1– de geaccumuleerde frequentie van het interval dat voorafgaat aan het interval dat het bovenste kwartiel bevat;
f Q 1– frequentie van het interval dat het onderste kwartiel bevat;
f Q3– frequentie van het interval dat het bovenste kwartiel bevat.
Laten we eens kijken naar de berekening van de onderste en bovenste kwartielen volgens de gegevens in de tabel. 5.10. Het onderste kwartiel ligt in het bereik van 60 – 80, waarvan de cumulatieve frequentie 33,5% bedraagt. Het bovenste kwartiel ligt in het bereik van 160 – 180 met een geaccumuleerde frequentie van 75,8%. Hiermee rekening houdend krijgen we:
,
.
Naast kwartielen kunnen decielen worden bepaald in de variatiebereiken van de verdeling - opties die de gerangschikte variatiereeks in tien gelijke delen verdelen. Het eerste deciel (d 1) verdeelt de bevolking in de verhouding van 1/10 tot 9/10, het tweede deciel (d 1) - in de verhouding van 2/10 tot 8/10, enz.
Ze worden berekend met behulp van de formules:
, .
De karakteristieke waarden die de reeks in honderd delen verdelen, worden percentielen genoemd. De verhoudingen van medianen, kwartielen, decielen en percentielen worden weergegeven in figuur 2. 5.5.

keer bekeken