Saturday 28 October 2017

Sammenlign Lineær Regresjon Til Den Bevegelige Gjennomsnitt Og Utjevnings Teknikker


Prognose ved utjevningsteknikker. Dette nettstedet er en del av JavaScript E-labs læringsobjekter for beslutningstaking. Andre JavaScript i denne serien er kategorisert under forskjellige anvendelsesområder i MENU-delen på denne siden. En tidsrekkefølge er en sekvens av observasjoner som bestilles i tide Uheldig i samlingen av data tatt over tid er noen form for tilfeldig variasjon. Det eksisterer metoder for å redusere avbryte effekten på grunn av tilfeldig variasjon. Bredt brukte teknikker er utjevning. Disse teknikkene, når de anvendes riktig, tydeliggjør de underliggende trenderne tydeligere..Trykk tidsserien Row-wise i rekkefølge, starter fra venstre øverste hjørne, og parameteren s, og klikk deretter på Calculate-knappen for å skaffe framtidig prognose. Lankbokser er ikke inkludert i beregningene, men nuller er. Ved å skrive inn dataene dine for å flytte fra celle til celle i datamatrixen, bruk Tab-tasten ikke pil eller skriv inn taster. Funksjoner av tidsserier, som kan avsløres av undersøkelsen ng sin graf med de prognostiserte verdiene, og residualens oppførsel, betinget prognostiseringsmodellering. Gjennomsnittlig gjennomsnitt Gjennomsnittlig rangering blant de mest populære teknikkene for forbehandling av tidsserier. De brukes til å filtrere tilfeldig hvit støy fra dataene, for å lage tidsserier jevnere eller til og med å understreke visse informasjonskomponenter som finnes i tidsseriene. Eksponensiell utjevning Dette er et veldig populært system for å produsere en glatt tidsserie. I Moving Averages blir de tidligere observasjonene vektet likt, Eksponensiell utjevning tilordner eksponentielt avtagende vekter som observasjonen blir eldre Med andre ord blir de siste observasjonene gitt relativt mer vekt i prognoser enn de eldre observasjonene. Dobbel eksponensiell utjevning er bedre å håndtere trender. Tre eksponensiell utjevning er bedre for å håndtere paraboltendenser. Et eksponentielt vektet glidende gjennomsnitt med en utjevningskonstant a tilsvarer omtrent en enkel glidende gjennomsnitt av lengde dvs. periode n, hvor a og n er relatert av. a 2 n 1 OR n 2 - a a. For eksempel vil et eksponentielt vektet glidende gjennomsnitt med en utjevningskonstant som er 0 l tilsvare omtrent et 19 dagers glidende gjennomsnitt Og et 40-dagers enkelt glidende gjennomsnitt ville korrespondere omtrent til et eksponentielt vektet glidende gjennomsnitt med en utjevningskonstant som er 0 04878.Holt s Lineær eksponensiell utjevning Anta at tidsseriene ikke er sesongmessige, men viser trend trend Holt s-metoden estimerer både strømmen nivå og den nåværende trenden. Merk at det enkle glidende gjennomsnittet er et spesielt tilfelle av eksponensiell utjevning ved å sette perioden for glidende gjennomsnitt til heltalldelen av 2-Alpha Alpha. For de fleste forretningsdata er en Alpha-parameter mindre enn 0 40 ofte effektive Det kan imidlertid utføres et rutenett for parameterrommet, med 0 1 til 0 9, med trinn på 0 1 Så har den beste alfa den minste Mean Absolute Error MA Error. How å sammenligne flere utjevningsmetoder Selv om det er numeriske indikatorer for å vurdere nøyaktigheten av prognoseteknikken, er det mest benyttede å bruke visuell sammenligning av flere prognoser for å vurdere nøyaktigheten og velge blant de ulike prognosemetoder. I denne tilnærmingen må man plotte ved hjelp av f. eks. Excel på samme graf de opprinnelige verdiene til en tidsserievariabel og de forutsagte verdiene fra flere forskjellige prognosemetoder, og dermed lette en visuell sammenligning. Du kan gjerne bruke Past Forecasts ved utjevningsteknikker JavaScript for å oppnå tidligere prognosverdier basert på utjevningsteknikker som bare bruker en enkelt parameter Holt og Winters metoder bruker henholdsvis to og tre parametere. Det er derfor ikke en lett oppgave å velge den optimale, eller til og med nær optimale verdier ved prøving og feil for parametrene. Enkelt eksponensiell utjevning legger vekt på det kortsiktige perspektivet det setter nivået til siste observasjon og er basert på tilstanden at det ikke er noen trend. Den lineære regressen ion, som passer til en minste firkantlinje til de historiske dataene eller transformerte historiske data, representerer lang rekkevidde som er betinget av den grunnleggende trenden Holt s lineære eksponensielle utjevning fanger opp informasjon om nyere trend Parametrene i Holt s-modellen er nivåparameter som bør reduseres når mengden datavariasjon er stor, og trenderparameteren skal økes dersom den siste trendretningen støttes av årsakssammenhengende faktorer. Korttidsoversikt Merk at alle JavaScript på denne siden gir en engangsforløp prognose For å oppnå en to-trinns prognose bare legg til den prognostiserte verdien til slutten av dine tidsseriedata og klikk deretter på den samme Beregn-knappen. Du kan gjenta denne prosessen for et par ganger for å oppnå de nødvendige kortsiktige prognosene. . Hva er bunnlinjen Slik sammenligner du modeller. Etter å ha montert en rekke forskjellige regresjons - eller tidsserier, prognoser for modeller til et gitt datasett, har du mange kriterier som de kan være sammenlignet. Error tiltak i estimeringsperioden rotmiddelmiddelkvadratfeil, gjennomsnittlig absolutt feil, gjennomsnittlig absolutt prosentvis feil, gjennomsnittlig absolutt skalert feil, gjennomsnittlig feil, gjennomsnittlig prosentvis feil. Feilmål i valideringsperioden hvis du har gjort prøveutprøving Ditto. Residual diagnostikk og godhet-of-fit tester plott av faktiske og forventede verdier plott av residualer versus tid, versus forutsete verdier, og mot andre variabler gjenværende autocorrelation tomter, korskorrelasjon tomter og tester for normalt distribuerte feil tiltak av ekstreme eller innflytelsesrike observasjonstester for overdreven løp, endringer i gjennomsnitt eller endringer i variansen mange ting som kan være OK eller ikke OK. Kvalitative hensyn intuitiv begrunnelse av modellen, enkelhet av modellen, og fremfor alt brukbarhet for beslutningstaking. Med så mange tomter og statistikk og hensyn til bekymringer, er det noen ganger vanskelig å vite hvilke sammenligninger som er viktigste. Hva er den virkelige bunnlinjen. Hvis det er ere er en hvilken som helst statistikk som normalt har forrang over de andre, det er rotenes gjennomsnittlige kvadratfeil RMSE som er kvadratroten av den gjennomsnittlige kvadratfeilen Når den er justert for graden av frihet for feilprøvestørrelse minus antall modellkoeffisienter, det er kjent som standardfeilen til regresjonen eller standardfeilen i estimatet i regresjonsanalysen eller som estimert hvit støystandardavvik i ARIMA-analyse Dette er statistikken hvis verdi er minimert under parameterestimeringsprosessen, og det er statistikken som bestemmer bredden på konfidensintervallene for spådommer Det er en nedre grense for standardavviket til prognosen feilen en tett nedre bundet hvis prøven er stor og verdiene av de uavhengige variablene ikke er ekstreme, så et 95 konfidensintervall for en prognose er omtrent lik poengvarselet pluss eller minus 2 standardfeil - med pluss eller minus 2 ganger standardfeilen for regresjonen. Det er imidlertid ar ea antall andre feiltiltak for å sammenligne modellens ytelse i absolutte eller relative termer. Den gjennomsnittlige absolutt feil MAE måles også i de samme enhetene som dataene, og er vanligvis lik i størrelsesorden til, men litt mindre enn, den root mean squared error Det er mindre følsomt for en og annen svært stor feil fordi den ikke kvadrer feilene i beregningen. Den matematisk utfordrede finner vanligvis dette en enklere statistikk for å forstå enn RMSE MAE og MAPE nedenfor er ikke en del av standard regresjonsutgang , men De er mer vanlig funnet i utgangen av tidsserien prognose prosedyrer, som den i Statgraphics Det er relativt enkelt å beregne dem i RegressIt bare velg alternativet for å lagre restbordet til regnearket, opprett en kolonne med formler neste for å beregne feil i absolutt eller absolutt prosent, og bruk funksjonen AVERAGE. Den gjennomsnittlige absolutt prosentvise feilen MAPE er også ofte nyttig for formålstjenlig rapportering, fordi det er uttrykt i generiske prosentbetingelser som vil gjøre noe fornuftig selv til noen som ikke har noen anelse om hva som utgjør en stor feil når det gjelder dollar brukt eller widgets solgt. MAPE kan kun beregnes med hensyn til data som er garantert å være strengt positivt, så hvis denne statistikken mangler fra produksjonen din der du normalt ville forvente å se den, er det mulig at den har blitt undertrykt på grunn av negative dataverdier. Den gjennomsnittlige absolutt skalerte feilen MASE er et annet forholdsmått av feil som bare gjelder tidsseriedata Det er definert som gjennomsnittlig absolutt feil i modellen dividert med gjennomsnittlig absolutt feil av en na ve tilfeldig-walk-without-drift-modell, dvs. den gjennomsnittlige absoluttverdien av den første forskjellen i serien Dermed måles den relative reduksjonen i feil sammenlignet med en naiv modell. Ideelt sett vil verdien være betydelig mindre enn 1 Denne statistikken, som ble foreslått av Rob Hyndman i 2006, er veldig god å se på når fitt regresjonsmodeller til tidsserier fra tidsserier Det er mulig for en tidsserie-regresjonsmodell å ha en imponerende R-kvadrat og likevel være dårligere enn en na ve-modell, som det ble demonstrert i den så gode verdien-for-R - kvadrert notater Hvis serien har et sterkt sesongmessig mønster, vil den tilsvarende statistikken for å se på være den gjennomsnittlige absoluttfeil dividert med gjennomsnittlig absolutt verdi av sesongforskjellen dvs. gjennomsnittlig absolutt feil av en na ve sesongbasert modell som forutsier at verdien i en gitt periode vil være lik verdien som ble observert en sesong siden. Den gjennomsnittlige feilen ME og gjennomsnittlig prosentandel feil MPE som er rapportert i noen statistiske prosedyrer, er signert feilmålinger som indikerer om prognosene er partisk - om de pleier å være uforholdsmessig positive eller negativ Bias anses normalt som en dårlig ting, men det er ikke bunnlinjen. Bias er en komponent av den gjennomsnittlige kvadratfeilen. Faktisk betyr kvadratfeil lik variansen av feilene pluss kvadrat av den gjennomsnittlige feilen som er MSE VAR E ME 2 Derfor, hvis du prøver å minimere gjennomsnittlig kvadratfeil, implisitt minimerer du bias så vel som variansen av feilene. I en modell som inneholder en konstant sikt, er den gjennomsnittlige kvadrat feil vil bli minimert når den gjennomsnittlige feilen er nøyaktig null, slik at du bør forvente at den gjennomsnittlige feilen alltid skal være null innen estimeringsperioden i en modell som inneholder en konstant periode Merk som rapportert i Statgraphics Forecasting-prosedyren, den gjennomsnittlige feilen i estimeringsperioden kan være litt forskjellig fra null hvis modellen inkluderte en loggtransformasjon som et alternativ, fordi prognosene og feilene automatisk blir slått på før statistikken beregnes - se nedenfor Gå tilbake til toppen. Rotenes gjennomsnittlige kvadratfeil er mer følsom enn andre tiltak for en og annen stor feil kvadratprosessen gir uforholdsmessig vekt til svært store feil Hvis en sporadisk stor feil ikke er et problem i din beslutningssituasjon, for eksempel hvis den sanne kostnaden av en feil er omtrent proporsjonal med størrelsen på feilen, ikke kvadratet av feilen, da kan MAE eller MAPE være et mer relevant kriterium. I mange tilfeller vil disse statistikkene variere i enstemmighet - den modellen som er best på en av de vil også være bedre på de andre - men dette kan ikke være tilfelle når feilfordelingen har utjevning Hvis en modell er best på ett mål og en annen er best på et annet mål, er de sannsynligvis ganske liknende med hensyn til deres gjennomsnittlige feil I slike tilfeller bør du sannsynligvis gi mer vekt på noen av de andre kriteriene for å sammenligne modeller - for eksempel enkelhet, intuitiv reasonableness osv. Rotenes gjennomsnittlige kvadratfeil og gjennomsnittlig absolutt feil kan bare sammenlignes mellom modeller hvis feil måles i samme enheter, for eksempel dollar eller faste dollar eller tilfeller av øl som selges, eller hva som helst Hvis en modell s feil justeres for inflasjon mens en annen eller ikke, eller hvis en modell s feil er i absolutte enheter mens en annen s er i loggede enheter, th eir feil målinger ikke kan sammenlignes direkte I slike tilfeller må du konvertere feilene til begge modellene til sammenlignbare enheter før du beregner de forskjellige tiltakene. Dette betyr at du konverterer prognosene til en modell til de samme enhetene som de andre ved å unlogging eller undeflating eller uansett, da trekker du disse prognosene fra de faktiske verdiene for å oppnå feil i sammenlignbare enheter, og beregner statistikk over disse feilene. Du kan ikke få den samme effekten ved bare å unlogging eller undeflating feilstatistikkene selv. I Statgraphics vil den brukerdefinerte prognoseprosedyren ta vare på av de sistnevnte beregningene for deg, blir prognosene og feilene deres automatisk konvertert tilbake til de opprinnelige enhetene i inngangsvariabelen, dvs. alle transformasjoner som utføres som modellalternativer innenfor prognoseprosedyren, reverseres før du beregner statistikken som vises i analysesammendragsrapporten og modellen Sammenligningsrapport Men andre prosedyrer i Statgraphics og de fleste andre statsprogrammer gjør livet ikke så lett for deg. Tilbake til toppen av siden. Det er ikke noe absolutt kriterium for en god verdi for RMSE eller MAE, det avhenger av enhetene der variabelen måles og på prognosens nøyaktighet, som målt i disse enhetene, som er søkt i en bestemt applikasjon. Avhengig av valg av enheter, kan RMSE eller MAE av din beste modell bli målt i zillioner eller en zillionths. Det er ingen mening å si at modellen er god dårlig fordi roten gjennomsnittlig kvadratfeil er mindre større enn x, med mindre du refererer til en bestemt grad av nøyaktighet som er relevant for din prognoseprogram. Det er ingen absolutt standard for en god verdi av justert R-kvadrat. Igjen, avhenger av situasjonen i Spesielt på signal-støy-forholdet i den avhengige variabelen. Noen ganger kan mye av signalet forklares vekk ved en passende datatransformasjon, før en regresjonsmodell tilpasses. Sammenligning av regresjonsmodeller som bruker samme depen dent variabel og samme estimeringsperiode, går standardfeilen for regresjonen ned som justert R-kvadratet går opp. Derfor vil modellen med den høyest justerte R-kvadratet ha den laveste standardfeilen for regresjonen, og du kan like godt Bruk justert R-kvadrat som et kriterium for å rangere dem. Men når man sammenligner regresjonsmodeller der de avhengige variablene ble forvandlet på forskjellige måter, for eksempel differensiert i ett tilfelle og uifferensiert i en annen, eller logget inn i et tilfelle og ulogget i en annen, eller som brukes forskjellige sett med observasjoner som estimeringsperioden, R-kvadrert er ikke en pålitelig veiledning til modellkvalitet Se notatene om Hva er god verdi for R-squared. Don t split hairs en modell med en RMSE på 3 25 er ikke vesentlig bedre enn en med en RMSE på 3 32 Husk at bredden på konfidensintervallene er proporsjonal med RMSE, og spør deg selv hvor mye av en relativ reduksjon i bredden av konfidensintervallene vil være merkbar på en plott Det kan være nyttig å tenke på dette i prosentvise termer hvis en modell s RMSE er 30 lavere enn en annen s, det er sannsynligvis veldig signifikant Hvis det er 10 lavere, er det sannsynligvis noe signifikant Hvis det bare er 2 bedre, er det sannsynligvis ikke signifikant Disse skillene er spesielt viktige når du handler av modellkompleksitet mot feilmålingene, er det sannsynligvis ikke verdt å legge til en annen uavhengig variabel til en regresjonsmodell for å redusere RMSE med bare noen få prosent. RMSE og justert R-kvadratstatistikk inkluderer allerede en mindre justering for antall koeffisienter estimert for å gjøre dem objektive estimatorer, men en tyngre straff på modellkompleksitet burde virkelig pålegges for å velge mellom modeller. Sofistikert programvare for automatisk modellvalg velger generelt å redusere feiltiltak som pålegge en så tyngre straff, som Mallows Cp-statistikken, Akaike Information Criterion AIC eller Schwarz Bayesian Inform Ation Criterion BIC Hvordan disse beregnes er utenfor rammen av den nåværende diskusjonen, men det er nok å si at når du - i stedet for datamaskinen - velger blant modeller, bør du vise noen preferanser for modellen med færre parametere, andre tingene er omtrent like. Rotenes gjennomsnittlige kvadratfeil er en gyldig indikator på relativ modellkvalitet bare hvis den kan stole på. Hvis det er tegn på at modellen er dårlig feil-spesifisert, dvs. hvis det grovt mislykkes de diagnostiske tester av sine underliggende forutsetninger eller at dataene i estimeringsperioden er blitt overmontert, dvs. hvis modellen har et relativt stort antall parametere for antall observasjoner som er montert og dens komparative ytelse forverres dårlig i valideringsperioden, så er rotmiddelens kvadratfeil og alle andre feilmålinger i estimatperioden må det være nødvendig å bli sterkt nedsatt. Hvis det bare er bevis for mindre feilspesifikasjon av modellen - f. eks. beskjedne mengder autokorrelasjon i resningen iduals - dette forstyrrer ikke modellen eller dens feilstatistikk fullstendig. Det forklarer bare at noen finjustering av modellen fortsatt er mulig. Det kan for eksempel indikere at en annen forsinket variabel kunne bli lønnsomt lagt til en regresjons - eller ARIMA-modell Gå tilbake til toppen av siden. Når du prøver å finne ut om feilmålene i estimeringsperioden er pålitelige, bør du vurdere om modellen som vurderes er sannsynlig å ha overfitted dataene. Er dens antagelser intuitivt rimelige. Ville det være enkelt eller vanskelig å forklare dette? modell til noen andre Gjør prognosen tomter som en rimelig ekstrapolering av tidligere data Hvis forutsetningene virker rimelige, er det mer sannsynlig at feilstatistikken kan stole på enn hvis forutsetningene var tvilsomme. Hvis modellen bare har en eller to parametere som en tilfeldig spasertur, eksponensiell utjevning eller enkel regresjonsmodell og ble montert på en moderat eller stor prøve av tidsseriedata, sier 30 observatører ioner eller mer, så er det sannsynligvis usannsynlig å ha overfitted dataene. Men hvis det har mange parametere i forhold til antall observasjoner i estimeringsperioden, er overfitting en tydelig mulighet for regresjonsmodeller som velges ved å anvende automatiske modellvalgsteknikker, f. eks. trinnvise eller all mulige regressjoner til stort antall ukritisk valgte kandidatvariabler er tilbøyelige til å overfatte dataene, selv om antall regressorer i den endelige modellen er små. Som en grov veiledning mot overfitting beregner du antall datapunkter i estimeringen periode per koeffisient estimert inkludert sesongindekser dersom de er estimert separat fra de samme dataene Hvis du har mindre enn 10 datapunkter per estimert koeffisient, bør du være oppmerksom på muligheten for overfitting. Tenk på det på denne måten hvor stort et utvalg av data ville du vil for å estimere en enkelt parameter, nemlig gjennomsnittet Strengt tatt, bestemmelsen av en tilstrekkelig prøvestørrelse o ught avhengig av signal-støyforholdet i dataene, arten av avgjørelsen eller inngangsproblemet som skal løses, og foruti kunnskap om hvorvidt modellspesifikasjonen er riktig. Det er også effektivitet å oppnå når estimering av flere koeffisienter samtidig fra samme data Imidlertid er tenkning i form av datapunkter per koeffisient fortsatt en nyttig virkelighetskontroll, spesielt når prøven er liten og signalet er svakt. Tilbake til toppen av siden. Når du tilpasser regresjonsmodeller til sesongmessige tidsseriedata og bruker dummyvariabler for å estimere månedlige eller kvartalsvise effekter, kan du ha lite valg om antall parametere som modellen skulle inkludere. Du må estimere sesongmønsteret på noen måte, uansett hvor liten prøven er, og du bør alltid inkludere hele settet, det vil si at du ikke fjerner årlige dummier, hvis koeffisientene ikke er vesentlig forskjellig fra null. Som regel er det godt å ha minst 4 årstider da ta Mer ville være bedre, men lang tidshistorier er kanskje ikke tilgjengelige eller tilstrekkelig relevante for hva som skjer nå, og bruk av en gruppe sesongmessige dummyvariabler som en enhet, bærer ikke den samme risikoen for overfitting som ved bruk av et tilsvarende antall regressorer som er tilfeldige variabler valgt fra et stort antall kandidater Hvis det er logisk for serien å ha et sesongmessig mønster, så er det ikke noe spørsmål om relevansen av variablene som måler den. Hvis du har sesongjustert dataene på egen hånd historie, før du legger til en regresjonsmodell, bør du telle sesongindeksene som ekstra parametere som i prinsippet svarer til dummyvariabler. Hvis du har få år med data som skal fungere, vil det uunngåelig være noe overfitting i denne prosessen. ARIMA-modeller vises ved første øyekast å kreve relativt få parametere som passer til sesongmessige mønstre, men dette er noe misvisende. For å initialisere en sesongbasert ARIMA-modell, er det nødvendig å estimere sesongmønsteret som skjedde i år 0, noe som kan sammenlignes med problemet med å estimere et fullt sett sesongbestemte indekser. Det er faktisk hevdet at flere sesonger av data kreves for å passe en sesongbasert ARIMA-modell enn å passe til en sesongbasert nedbrytningsmodell. Selv om konfidensintervaller for en-trinns prognoser er basert nesten helt på RMSE, er konfidensintervallene for lengre horisont-prognosene som kan produseres av tidsseriemodeller, avhengig av de underliggende modelleringsantagelsene, særlig antagelser om variabiliteten av trenden Forholdsintervallene for noen modeller utvides relativt langsomt, siden prognoseperioden er forlenget, for eksempel enkle eksponensielle utjevningsmodeller med små verdier av alfa, enkle glidende gjennomsnitt, sesongmessige tilfeldige gangmodeller og lineære trendmodeller. Forventningsintervallene utvides mye raskere for andre typer av modeller, for eksempel nonseasonal random walk modeller, sesongmessige tilfeldige trendmodeller eller lineær eksponensiell utjevning mo dels Den hastigheten som konfidensintervallene utvider er ikke en pålitelig guide til modellkvalitet. Det som er viktig er at modellen skal gjøre de riktige forutsetningene om hvor usikker framtiden er. Det er svært viktig at modellen skal passere de ulike gjenværende diagnostiske tester og eyeball tester for at konfidensintervallene for lengre horisont-prognoser skal tas alvorlig. Tilbake til toppen av siden. Hvis du har hatt muligheten til å utføre prøving av modellens kryss-validering, må feilmålingene i valideringstidspunktet er også svært viktig Teoretisk er modellens ytelse i valideringsperioden den beste guiden til evnen til å forutsi fremtiden. Hensikten her er at valideringsperioden ofte er en mye mindre datautvalg enn estimeringsperioden. Det er derfor mulig at en modell kan gjøre uvanlig godt eller dårlig i valideringsperioden bare ved å bli heldig eller uheldig - for eksempel ved å gjøre riktig gjetning om en uforutsigbar oppgang o r nedgang i nær fremtid eller ved å være mindre følsomme enn andre modeller til en uvanlig hendelse som skjer ved begynnelsen av valideringsperioden. Uten at du har nok data til å holde ut et stort og representativt utvalg for validering, er det sannsynligvis bedre å tolke valideringstidsstatistikken på en mer kvalitativ måte bølger de et rødt flagg angående mulig upålitelig statistikk i estimeringsperioden, eller ikke. Sammenligningsfeilstatistikken som Statgraphics rapporterer for estimerings - og valideringsperioder er i originale, ikke-transformerte enheter Hvis du brukte en loggtransformasjon som et modellalternativ for å redusere heteroscedasticitet i residualene, du bør forvente at de uloggede feilene i valideringsperioden blir mye større enn estimatperioden. Selvfølgelig kan du fortsatt sammenligne valideringstidsstatistikk på tvers av modeller i dette tilfellet Tilbake til toppen av siden. Så bunnlinjen er at du bør legge mest vekt på feilmålingene i estimeringsperiode - mest ofte RMSE eller standardfeil av regresjonen, som er RMSE justert for modellens relativ kompleksitet, men noen ganger MAE eller MAPE - når man sammenligner blant modeller MASE-statistikken gir en veldig nyttig virkelighetskontroll for en modell montert på tidsseriedata, er det noe bedre enn en naiv modell. Hvis programvaren din er i stand til å beregne dem, kan du også se på Cp, AIC eller BIC, noe som vanskeligere straffer modellkompleksiteten. Men du bør holde øye med resten diagnostiske tester, kryss-valideringstester hvis tilgjengelig, og kvalitative hensyn som den intuitive rimelighet og enkelheten til modellen din. De resterende diagnostiske testene er ikke bunnlinjen. Du bør aldri velge modell A over modell B bare fordi modell A har mer OK s på gjenværende tester Hva ville du helst ha mindre feil eller flere tilfeldige feil? En modell som mislykkes noen av gjenværende tester eller virkelighetskontroller på en mindre måte, er sannsynligvis gjenstand for ytterligere forbedring, mens det er modellen som flunker slike tester på en større måte som ikke kan stole på. Valideringsperioden resultatene er ikke nødvendigvis det siste ordet heller, på grunn av spørsmålet om prøvestørrelse hvis modell A er litt bedre i en validering periode med størrelse 10 mens modell B er mye bedre i løpet av en estimeringsperiode på størrelse 40, ville jeg studere dataene nøye for å prøve å finne ut om modell A bare var heldig i valideringsperioden. Endelig husk å KISS holde det enkelt Hvis to modeller er generelt like i forhold til deres feilstatistikk og annen diagnostikk, bør du foretrekke det enklere og enklere å forstå. Den enklere modellen vil trolig være nærmere sannheten, og det vil vanligvis bli lettere akseptert av andre. Tilbake til øverst på siden. Smoderende data fjerner tilfeldig variasjon og viser trender og sykliske komponenter. Innenværende i samlingen av data tatt over tid er noen form for tilfeldig variasjon. Det eksisterer metoder for reduksjon av avbrytelse effekten på grunn av tilfeldig variasjon En ofte brukt teknikk i industrien er utjevning Denne teknikken, når den er riktig påført, tydeliggjør den underliggende trenden, sesongmessige og cykliske komponenter. Det er to forskjellige grupper av utjevningsmetoder. Bedriftsmetoder. Eksponentielle utjevningsmetoder. Taking gjennomsnitt er den enkleste måten å glatte data. Vi vil først undersøke noen gjennomsnittsmetoder, for eksempel det enkle gjennomsnittet av alle tidligere data. En leder av et lager ønsker å vite hvor mye en typisk leverandør leverer i 1000 dollar enheter. Han tar et utvalg av tolv leverandører som tilfeldigvis oppnår følgende resultater. Beregnet gjennomsnitt eller gjennomsnitt av dataene 10 Lederen bestemmer seg for å bruke dette som anslag for utgifter til en typisk leverandør. Dette er et godt eller dårlig estimat. er en måte å dømme hvor bra en modell er. Vi skal beregne den gjennomsnittlige kvadratfeilen. Feil sant beløp brukt minus estimert mengde. Feilen squared er feilen ovenfor, squared. SSE er su m av de kvadratiske feilene. MSE er gjennomsnittet av de kvadratiske feilene. MSE-resultatene for eksempel. Resultatene er Feil og Kvadratfeil. Estimatet 10.For spørsmålet oppstår, kan vi bruke gjennomsnittet til å prognostisere inntekt hvis vi mistenker en trend A se på grafen under viser tydelig at vi ikke burde gjøre dette. Enhet veier alle tidligere observasjoner likt. Sammendrag oppgir vi at. Det enkle gjennomsnittet eller gjennomsnittet av alle tidligere observasjoner er bare et nyttig estimat for prognoser når det ikke er noen trender hvis Det er trender, bruk ulike estimater som tar trenden i betraktning. Gjennomsnittet veier alle tidligere observasjoner likt For eksempel er gjennomsnittet av verdiene 3, 4, 5 4 Vi vet selvsagt at et gjennomsnitt beregnes ved å legge til alt Verdiene og dividere summen med antall verdier En annen måte å beregne gjennomsnittet på er å legge til hver verdi dividert med antall verdier, eller.3 3 4 3 5 3 1 1 3333 1 6667 4. Multiplikatoren 1 3 kalles vekten generelt. bar frac sum venstre frak høyre x1 venstre frac høyre x2,,, venstre frac høyre xn. Venstre frac høyre er vektene og selvfølgelig de summerer til 1.

No comments:

Post a Comment