Statisztika egyszerűen

Mágikus jelek nélkül...

Az időtényező – Az idősorok elemzéséről szigorúan szubjektíven

2020. július 10. 08:00 - glantos70

Idősorok elemzése

Az eddig megírt cikkeim jelentős részében azt feltételeztem, hogy a vizsgált adatok egy adott időpontban vagy egy nagyon rövid időintervallumban keletkeztek, az adatok keletkezésének körülményeinek esetleges megváltozása nem befolyásolta a keletkezett adatok értékeit. Igyekszem megfelelő gondossággal körül járni a témát, és igyekszem nem kihagyni semmi fontosat.

Mik is azok az idősorok? Egy idősor megadott időpontokban rögzített észlelések sorozata, tekinthetjük pillanatképek sorozatának is. Ebből egyenesen következik, hogy egy idősor esetében az adatok sorrendje is számít, hiszen nem tudhatjuk, hogy egy adott időpillanatban keletkezett adatot vajon befolyásolnak-e – illetve, ha igen, akkor hogyan – az előzőleg keletkezett adatok.

Könnyű belátni, hogy két vizsgált időpillanat között a vizsgált objektum, vagy annak körülményei megváltozhatnak és ezek a változások hatással vannak a vizsgált tényező egyes időpillanatokban észlelt értékeire. Ez egy nagyon gazdag új színt visz a történetbe, hiszen egy sztenderd adatsor esetében alapból feltételezzük, hogy az adatok keletkezése közben nem változik meg a vizsgált tényező, illetve a vizsgálat körülményei.

Persze ilyen állapot idősorok esetében is létezik. Amikor a vizsgált időintervallumon belül az idősor adatainak statisztikai jellemzői állandóak, akkor az idősorra azt mondjuk, hogy stacionárius. Ez alatt azt értem, hogy az adott időintervallumon belül bármelyik időpillanatban kiszámolhatom az adatok középértékét vagy szóródását, az minden pillanatban ugyanannyi lesz. Ha egy idősor stacionárius, az több szempontból is könnyűvé teszi az idősor vizsgálatát. Egyrészt alkalmazhatók a sztenderd adatsorok esetében is alkalmazható tesztek és vizsgálatok, másrészt az adatsor eddigi állapota alapján relatíve nagy valószínűséggel előre tudjuk jelezni a vizsgált tényező jövőbeni viselkedését pont amiatt, mert az idősor statisztikai jellemzőit állandónak tekinthetjük.

Amikor egy idősor nem stacionárius, akkor még jónéhány más tulajdonsága is lehet, jellemző lehet rá valamilyen trendszerű változás, vagy periodicitás, azaz valamilyen ismétlődő mintázat rendszeres megjelenése. Ilyenkor az idősorok különféle összetevőkből épülnek fel:

  1. Trend: A trend az idősornak az az eleme, amely azt mutatja meg, hogy az adatok hosszútávon milyen irányba mozognak.
  2. Szezonalitás: Ezek azok a periodikus, visszatérő mozgások, amelyek rendszeresen ismétlődnek időszakról időszakra
  3. Zaj: Véletlenszerű eltérések az átlagtól (ez lehet egy 0 átlaggal és adott szórással rendelkező normál eloszlású adatsor). Ezt sok helyen fehér zajnak is nevezik.

Ez a három összetevő egymásra épülve adja meg a vizsgált idősort. Az egyes összetevők megfelelő módszerekkel szétválaszthatók és kombinálhatók is.

Az idősorokkal kapcsolatos másik kérdés az, hogy vajon van-e összefüggés a jelenlegi és a múltbeli adatok között, azaz mennyire lehet a múltbeli adatok alapján következtetni a vizsgált tényező jövőbeni alakulására? Másképpen feltéve a kérdést, van-e valamilyen korreláció, vagyis összefüggés a jelenlegi és a múltbeli adatok között? A korrelációról már értekeztem korábban (Valaki átírta a korrelációs együttható képletét, hogy ne lehessen érteni? Ez most komoly…?), tehát a fogalom nem új. Jelen esetben annyival bonyolódik a helyzet, hogy itt egy áttekintést szeretnénk kapni arról, hogy a jelenlegi és az eggyel – kettővel – hárommal - … korábbi adatok között van-e valamilyen összefüggés. Ezt az áttekintést hívjuk autokorrelációnak. Az autokorrelációnak nincs egy adott értéke, ami alapján értékeljük az idősor függőségét a jelenlegi adatoktól, a jelenlegi és a múltbeli adatok összefüggését egy diagramon ábrázoljuk, amelyet korrelogramnak hívunk. Az autokorreláció alkalmazását egy későbbi bejegyzésben részletesen is be fogom mutatni egy egyszerű példán.

Az idősorokkal kapcsolatban meg szokták még említeni az úgynevezett heteroszkedaszticitás nevű tulajdonságot. Ezt egy kicsit nehezebb elmagyarázni, de megpróbálom.

Tegyük fel, hogy van egy adatsorom, amelyre megpróbálok ráilleszteni egy elméleti regressziós egyenest (Legyenek a négyzetek minél kisebbek…! – útban a lineáris regresszió elemzés felé). Az adatsor pontjai általában nem illeszkednek pontosan az adatsorra, vannak kisebb-nagyobb eltérések az adatsor pontjai és az elméleti egyenes között. De mivel idősorról beszélünk, ezért elképzelhető, hogy az egyik időpillanatban a konkrét adatpontok eltérése kisebb, egy más időpillanatban pedig nagyobb az elméleti egyeneshez képest. Az alábbi ábra jól ábrázolja ezt a jelenséget.

/forrás: https://www.investopedia.com/terms/h/heteroskedasticity.asp/

A fenti ismertető tényleg nagyon általános és nagyon sok dolog még hiányzik belőle, de lássuk be, hogy ez egy nagyon nagy és bonyolult témakör. A későbbiekben még foglalkozom majd az idősorok vizsgálatához szükséges eszközökkel és módszerekkel.

Szólj hozzá!

A bejegyzés trackback címe:

https://statisztikaegyszeruen.blog.hu/api/trackback/id/tr2515989744

Kommentek:

A hozzászólások a vonatkozó jogszabályok  értelmében felhasználói tartalomnak minősülnek, értük a szolgáltatás technikai  üzemeltetője semmilyen felelősséget nem vállal, azokat nem ellenőrzi. Kifogás esetén forduljon a blog szerkesztőjéhez. Részletek a  Felhasználási feltételekben és az adatvédelmi tájékoztatóban.

Nincsenek hozzászólások.
süti beállítások módosítása