Risultati di Calcio: Pronostici utilizzando Data Mining
Con un po ‘di orgoglio ci piacerebbe iniziare dicendo che noi creiamo le nostre previsioni completamente indipendente dalle previsioni di altri. In particolare, non usiamo le quote dei uffici scommesse o dei provider simili per le partite singole. Noi usiamo solo le informazioni pubblicamente disponibili per la nostra analisi statistica utilizzando il data mining.
Abbiamo raccolto e modificato un sacco di informazioni storiche relative a partite di calcio. Questi dati vengono analizzati da noi con il software di data mining [Data.Mining.Fox (DMF) di Easy.Data.Mining]. Lo facciamo in due passi. Passo 1 genera un cosiddetto modello che è statisticamente calcolato sulla base dei dati storici. In questo modello, il software di data mining estrae tutte le relazioni multi-fattoriali che può trovare nei dati storici. E al passo 2 si applica questo modello al fine di prevedere i risultati delle future partite di calcio.
Facciamo questo per tutte le partite in tre cicli di previsione. Ciascun ciclo consiste – come spiegato nel paragrafo precedente – nella creazione di un modello da un lato, e nell’applicazione di questo modello dall’altro.
Nel 1° ciclo, rispondiamo sempre prima alla domanda se una partita è un pareggio o se vince la squadra di casa o quella fuori casa. Nel 2° e 3° ciclo calcoliamo quindi quanti gol segna la squadra di casa e quella fuori casa. Da tutti tre cicli mettiamo poi insieme il risultato della partita predetta.
Nota bene, naturalmente, che non è possibile di considerare nei nostri calcoli delle circostanze statisticamente imprevedibili o dei fattori che cambiano a breve termine – per esempio decisioni sbagliate degli arbitri, condizioni eccezionali del campo di gioco, infortunio o malattia di giocatori, la luce e le condizioni meteorologiche, sentenze doppo un cartellino rosso di un giocatore importante, effetti del cambiamento d’un allenatore, controversie nel club, problemi finanziari dell’associazione, trattative contrattuali irrisolte, tumulti dei tifosi, il carico supplementare di alcuni giocatori della nazionale, ecc., e su manipolazioni non vogliamo neanche parlare ;-)
Nostro DMSC (Data.Mining.Soccer-Confidence) è una percentuale di confidenza statistica che procura un’informazione per quanto riguarda la validità statistica di una previsione. Questa percentuale è una quota ibrida artificiale che si compone di vari elementi, per esempio: il livello di confidenza statistica calcolata dal software data mining relativo alla classe di risultato della partita; la speranza matematica per una vittoria in casa, un pareggio, e una vittoria fuori casa; la media dei tassi di successo che si potrebbe raggiungere per entrambe le squadre in termini di tutte le predizione aggiornate; una quota calcolata da noi manualmente che si riferisce ai fattori vittoria della squadra a casa, fuori casa, o pareggio.
Ultimo ma non meno vorremmo richiamare l’attenzione sulla nostra trasparenza. Tutte le previsioni sono resi disponibili prima di ogni partita su questo sito. Le nostre previsioni rimangono trasparenti nel confronto diretto con i risultati reali, anche se le nostre previsioni erano molto povere per una giornata (non sempre il caso su altri siti web ;-) ). Forniamo anche sommari statistici riguardanti la nostra validità di previsione per ogni categoria (cioè di solito per una stagione di un concorso specifico come p.e. la Serie A).