Test statistic pentru seriile de timp în care apare rezultatul - piton

voturi
15

Întreb despre asistență în ceea ce privește testarea de regresie. Am o serie de timp continuă care fluctuează între numere întregi pozitive și negative. De asemenea, am evenimente care au apărut pe parcursul acestei serii de timp, în momente de timp aparent aleatorii. În esență, atunci când are loc un eveniment, mă apuc de numărul întreg. Vreau apoi să testez dacă acest număr întreg influențează evenimentul. Ca și în, există mai multe numere întregi pozitive / negative.

Am crezut inițial regresie logistică cu numărul pozitiv / negativ, dar asta ar necesita cel puțin două grupuri distincte. Întrucât, am informații doar despre evenimentele care au avut loc. Nu prea pot include acea cantitate de evenimente care nu au loc, deoarece este oarecum continuă și întâmplătoare. Cantitatea de ori care nu are loc un eveniment este imposibil de măsurat.

Deci, grupul meu distinct este adevărat într-un sens, deoarece nu am rezultate din ceva care nu s-a produs. Ceea ce încerc să clasific este:

Când apare un rezultat, influența pozitivă sau negativă influențează acest rezultat .

Întrebat 11/05/2020 la 04:28
sursa de către utilizator
În alte limbi...                            


3 răspunsuri

voturi
0

Deși, întrebarea este destul de dificil de înțeles după primul paragraf. Permiteți-mi să vă ajut de ceea ce aș putea înțelege din această întrebare.

Presupunând că doriți să înțelegeți dacă există relații între evenimentele care se întâmplă și numerele întregi din date.

Prima abordare: Diagramați datele pe o scară 2d și verificați vizual dacă există o relație între date. A 2-a abordare: faceți datele din evenimente continue și eliminați evenimentele din alte date și utilizând fereastra rulantă netedă datele și apoi comparați ambele tendințe.

Abordarea dată mai sus funcționează bine numai dacă înțeleg corect problema ta. Mai există un lucru cunoscut sub numele de prejudecată de supraviețuire. S-ar putea să lipsească date, vă rugăm să verificați și acea parte.

Publicat 18/05/2020 la 13:52
sursa de către utilizator

voturi
0

Pare că sunteți interesat să determinați forțele care stau la baza producerii unui flux de date dat. Astfel de modele matematice sunt numite modele Markov. Un exemplu clasic este studiul textului.

De exemplu, dacă rulez un algoritm de model Markov ascuns pe un paragraf din textul englez, atunci voi afla că există două categorii de conducere care determină probabilitățile ce apar literele din paragraf. Aceste categorii pot fi împărțite aproximativ în două grupuri, „aeiouy” și „bcdfghjklmnpqrstvwxz”. Nici matematica și nici HMM nu au „știut” ce să numească acele categorii, ci sunt ceea ce se converg statistic la analiza unui paragraf de text. Am putea numi acele categorii „vocale” și „consoane”. Deci, da, vocalele și consoanele nu sunt doar categorii de clasa I de învățat, ci urmează modul în care textul este scris statistic. Interesant este că un „spațiu” se comportă mai mult ca o vocală decât o consoană. Nu am dat probabilitățile pentru exemplul de mai sus, dar este interesant de menționat că „y” se termină cu o probabilitate de aproximativ 0,6 vocală și 0,4 consoană; ceea ce înseamnă că „y” este cea mai consoană vocală care se comportă statistic.

O lucrare excelentă este https://www.cs.sjsu.edu/~stamp/RUA/HMM.pdf care trece peste ideile de bază ale acestui tip de analiză a seriei de timp și oferă chiar și câteva coduri sudo pentru referință.

Nu știu prea multe despre datele cu care aveți de-a face și nu știu dacă conceptele de „pozitiv” și „negativ” joacă un factor determinant în datele pe care le vedeți, dar dacă ați rulat un HMM pe datele dvs. și a constatat că cele două grupuri sunt colectarea numerelor pozitive și colectarea numerelor negative, atunci răspunsul dvs. ar fi confirmat, da, cele mai influente două categorii care îți conduc datele sunt conceptele de pozitiv și negativ. Dacă nu se împart uniform, atunci răspunsul dvs. este că acele concepte nu sunt un factor influent în conducerea datelor. Chiar mai mult, algoritmul s-ar încheia cu mai multe matricii de probabilitate care ar arăta cât de mult este influențat fiecare număr întreg din datele dvs. pentru fiecare categorie, deci veți avea o perspectivă mult mai mare în comportamentul datelor din seria dvs. de timp.

Publicat 19/05/2020 la 07:59
sursa de către utilizator

voturi
0

Poate că înțeleg greșit problema dvs., dar nu cred că puteți preforma orice fel de regresie semnificativă fără mai multe informații.

Regresia este de obicei folosită pentru a găsi o relație între două sau mai multe variabile, cu toate acestea Se pare că aveți o singură variabilă (dacă sunt pozitive sau negative) și una constantă (rezultatul este întotdeauna adevărat în date). Poate puteți face unele statistici cu privire la distribuția numerelor (medie, medie, abatere standard), dar nu sunt sigur cum puteți face regresie. https://en.wikipedia.org/wiki/Regression_analysis

Poate doriți să considerați că ar putea exista o prejudecată puternică de supraviețuire dacă veți lipsi o bucată mare de date. https://en.wikipedia.org/wiki/Survivorship_bias

Sper că acest lucru este cel puțin un pic util pentru a vă conduce în direcția corectă

Publicat 11/05/2020 la 04:53
sursa de către utilizator

Cookies help us deliver our services. By using our services, you agree to our use of cookies. Learn more