Artiklen diskuterer anvendelsesområderne for tidsserier, de problemer, der skal løses, og de anvendte algoritmer. Forudsigelse af tidsserier bruges i opgaver som forecasting af efterspørgsel, kontaktcenterbelastning, vej- og internettrafik, løsning af koldstartsproblemet i anbefalingssystemer og søgning efter uregelmæssigheder i udstyrs og brugeres adfærd.
Lad os se nærmere på opgaverne.
1) Efterspørgselsprognose.
Mål: reducere lageromkostninger og optimere personalets arbejdsplaner.
Sådan løses det: Med en prognose for indkøb af varer og antallet af kunder, minimerer vi mængden af varer på lageret og opbevarer præcis lige så meget, som der vil blive købt i et givet tidsinterval. Med kendskab til antallet af kunder til enhver tid, udarbejder vi en optimal arbejdsplan, så der er tilstrækkeligt med personale med et minimum af omkostninger.
2) Forudsigelse af belastningen på leveringstjenesten
Mål: at forhindre logistikkollaps under spidsbelastninger.
Sådan løses det: forudsige antallet af ordrer, bringe det optimale antal biler og kurerer på linjen.
3) Forudsigelse af belastningen på kontaktcenteret
Mål: at sikre den nødvendige tilgængelighed af kontaktcenteret og samtidig minimere lønfondsomkostningerne.
Sådan løses: forudsigelse af antallet af opkald over tid, skabe en optimal tidsplan for operatører.
4) Trafikprognose
Mål: forudsige antallet af servere og båndbredde for stabil drift. Så din service ikke går ned på premieredagen på en populær tv-serie eller fodboldkamp 😉
5) Forudsigelse af det optimale tidspunkt for ATM-indsamling
Mål: at minimere mængden af kontanter, der opbevares i ATM-netværket
6) Løsninger på koldstartsproblemet i anbefalingssystemer
Mål: Anbefal relevante produkter til nye brugere.
Når brugeren har foretaget flere køb, kan der bygges en kollaborativ filtreringsalgoritme til anbefalinger, men når der ikke er information om brugeren, er det optimalt at anbefale de mest populære produkter.
Løsning: Produkternes popularitet afhænger af det tidspunkt, hvor anbefalingen fremsættes. Brug af tidsserieprognoser hjælper med at identificere relevante produkter på ethvert givet tidspunkt.
Vi så på life hacks til at bygge anbefalingssystemer i
7) Søg efter anomalier
Mål: at identificere problemer i driften af udstyr og ikke-standardiserede situationer i erhvervslivet
Løsning: Hvis den målte værdi er uden for prognosekonfidensintervallet, er der registreret en anomali. Hvis dette er et atomkraftværk, er det tid til at øge kvadratet af afstanden 😉
Algoritmer til at løse problemet
1) Glidende gennemsnit
Den enkleste algoritme er det glidende gennemsnit. Lad os beregne gennemsnitsværdien på de sidste par elementer og lave en forudsigelse. For vejrudsigter længere end 10 dage anvendes en lignende tilgang.
Når det er vigtigt, at de sidste værdier i en serie bidrager mere vægt, introducerer vi koefficienter afhængigt af afstanden til datoen, og opnår en vægtet model:
Så du kan indstille W-koefficienten, så den maksimale vægt falder på de sidste 2 dage og indgangsdagene.
Under hensyntagen til cykliske faktorer
Kvaliteten af anbefalinger kan være påvirket af cykliske faktorer, såsom sammenfald med ugedag, dato, forudgående helligdage osv.
Ris. 1. Eksempel på tidsserienedbrydning i trend, sæsonkomponent og støj
Eksponentiel udjævning er en løsning til at tage hensyn til cykliske faktorer.
Lad os se på 3 grundlæggende tilgange
1. Enkel udjævning (brun model)
Repræsenterer beregningen af et vægtet gennemsnit af de sidste 2 elementer i en serie.
2. Dobbelt udjævning (Holt-model)
Tager højde for ændringer i trend og udsving i restværdier omkring denne trend.
Vi beregner forudsigelsen af ændringer i residualer ® og trend (d). Den endelige værdi af y er summen af disse to størrelser.
3. Tredobbelt udjævning (Holt-Winters model)
Tredobbelt udjævning tager desuden højde for sæsonbestemte variationer.
Formler til tredobbelt udjævning.
ARIMA og SARIMA algoritme
Det særlige ved tidsserier til brug af ARIMA er forbindelsen mellem tidligere værdier forbundet med nuværende og fremtidige.
SARIMA – udvidelse til serier med sæsonbestemt komponent. SARIMAX er en udvidelse, der inkluderer en ekstern regressionskomponent.
ARIMA-modeller giver dig mulighed for at simulere integrerede eller differensstationære tidsserier.
ARIMAs tilgang til tidsserier er, at seriens stationaritet først vurderes.
Dernæst transformeres serien ved at tage forskellen i den passende rækkefølge, og en ARMA-model konstrueres til den transformerede model.
ARMA er en lineær multipel regressionsmodel.
Det er vigtigt, at serien er stationær, dvs. middelværdien og variansen ændrede sig ikke. Hvis serien er ikke-stationær, skal den bringes til en stationær form.
XGBoost – hvor ville vi være uden det?
Hvis en serie ikke har en intern udtrykt struktur, men der er ydre påvirkningsfaktorer (manager, vejr osv.), så kan man roligt bruge maskinlæringsmodeller som boosting, random skove, regression, neurale netværk og SVM.
Fra holdets erfaring DATA4, tidsserieforecasting, en af hovedopgaverne til løsning af optimering af lageromkostninger, personaleomkostninger, optimering af vedligeholdelsen af ATM-netværk, logistik og byggeanbefalingssystemer. Komplekse modeller som SARIMA giver resultater af høj kvalitet, men er tidskrævende og egner sig kun til en bestemt række opgaver.
I den næste artikel vil vi se på de vigtigste tilgange til at søge efter anomalier.
For at sikre, at artiklerne er relevante for dine interesser, skal du tage undersøgelsen nedenfor eller skrive i kommentarerne, hvilke emner du skal skrive om i de næste artikler.
Kun registrerede brugere kan deltage i undersøgelsen.
Artikler om hvilket emne er du interesseret i?
-
Anbefalingssystemer
-
Billedgenkendelse
-
Tale- og tekstbehandling
-
Nye arkitekturer i DNN
-
Tidsserier og anomalisøgning
-
ML i erhvervslivet, use cases
17 brugere stemte. 3 brugere undlod at stemme.
Kilde: www.habr.com