Pagina 1 di 1

Elaboazione Archivio BetFair

Inviato: 03/04/2010 - 03:33
da didacus
Da un po' di tempo sto lavorando sui file(s) d'archivio che bf mette a disposizione di tutti http://data.betfair.com/

L'elaborazione di queste informazioni non è semlicissima, se si vuole ricavare un dato statistico utile bisogna considerare un arco temporale sufficientemente ampio, di un anno o più, e la mole di dati è ampia.

Una volta importati i dati li ho analizzati, interpretati e infine testati con un bot automatico. Putroppo in quest'ultimo step si è verificata un'incongruenza tra la proiezione che speravo si realizzasse e la realtà  (c'era da spettarselo altrimenti non starei a scrivere eh, eh, eh...)

Perchè si è verificata questa inconguenza non riesco a capirlo di preciso, faccio un esempio con una corsa di levrieri UK:

ESEMPIO 1
EVENT_ID | SETTLED_DATE | FULL_DESCRIPTION | EVENT | SELECTION | VOLUME_MATCHED | WIN_FLAG | ODDS
100296195 | 05-01-2009 11:21:01 | BAGS cards / HGrn 5th Jan | A5 480m | 5. Lagganmore Dazl | 444,26 | 0 | 6,2
100296195 | 05-01-2009 11:21:01 | BAGS cards / HGrn 5th Jan | A5 480m | 4. Lady Avenger | 214,12 | 0 | 8
100296195 | 05-01-2009 11:21:01 | BAGS cards / HGrn 5th Jan | A5 480m | 2. Lainies Diva | 97,5 | 0 | 10,5
100296195 | 05-01-2009 11:21:01 | BAGS cards / HGrn 5th Jan | A5 480m | 6. He Isa Delight | 1639,46 | 1 | 3
100296195 | 05-01-2009 11:21:01 | BAGS cards / HGrn 5th Jan | A5 480m | 3. Beccas Boy | 589,58 | 0 | 6
100296195 | 05-01-2009 11:21:01 | BAGS cards / HGrn 5th Jan | A5 480m | 1. Drumena Magic | 198,16 | 0 | 7

Questo è un esempio di una possibile interpretazione dei dati che all'origine si presentano così (stralcio):

ESEMPIO 2
EVENT_ID | EVENT | SELECTION | ODDS | VOLUME_MATCHED | LATEST_TAKEN | FIRST_TAKEN | WIN_FLAG
100296195 | A5 480m | 6. He Isa Delight | 3,00 | 1639,46 | 05/01/2009 11:19 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 4,00 | 35,06 | 05/01/2009 11:15 | 05/01/2009 11:14 | 1
100296195 | A5 480m | 6. He Isa Delight | 2,76 | 72,2 | 05/01/2009 11:17 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 2,78 | 336,36 | 05/01/2009 11:17 | 05/01/2009 11:17 | 1
100296195 | A5 480m | 6. He Isa Delight | 2,80 | 674,32 | 05/01/2009 11:17 | 05/01/2009 11:17 | 1
100296195 | A5 480m | 6. He Isa Delight | 2,82 | 952,48 | 05/01/2009 11:17 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 2,84 | 575,92 | 05/01/2009 11:17 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 2,86 | 447,78 | 05/01/2009 11:17 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 2,88 | 370,98 | 05/01/2009 11:19 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 2,90 | 99,04 | 05/01/2009 11:19 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 2,92 | 280,12 | 05/01/2009 11:19 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 2,94 | 379,36 | 05/01/2009 11:19 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 2,96 | 1394,7 | 05/01/2009 11:19 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 2,98 | 919,52 | 05/01/2009 11:18 | 05/01/2009 11:18 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,05 | 204,26 | 05/01/2009 11:18 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,10 | 290,68 | 05/01/2009 11:18 | 05/01/2009 11:17 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,15 | 723,34 | 05/01/2009 11:18 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,20 | 366,48 | 05/01/2009 11:18 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,25 | 58,58 | 05/01/2009 11:18 | 05/01/2009 11:15 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,30 | 114,56 | 05/01/2009 11:18 | 05/01/2009 11:15 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,35 | 38,3 | 05/01/2009 11:16 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,40 | 43,8 | 05/01/2009 11:16 | 05/01/2009 11:16 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,45 | 186,76 | 05/01/2009 11:16 | 05/01/2009 11:15 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,50 | 76,04 | 05/01/2009 11:16 | 05/01/2009 11:15 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,55 | 113,3 | 05/01/2009 11:16 | 05/01/2009 11:15 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,65 | 51,66 | 05/01/2009 11:15 | 05/01/2009 11:15 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,70 | 1,68 | 05/01/2009 11:15 | 05/01/2009 11:15 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,90 | 10,28 | 05/01/2009 11:15 | 05/01/2009 11:15 | 1
100296195 | A5 480m | 6. He Isa Delight | 3,95 | 107,96 | 05/01/2009 11:15 | 05/01/2009 11:15 | 1
100296195 | A5 480m | 6. He Isa Delight | 4,10 | 22,02 | 05/01/2009 11:14 | 05/01/2009 11:12 | 1
100296195 | A5 480m | 6. He Isa Delight | 4,20 | 3,82 | 05/01/2009 11:12 | 05/01/2009 11:12 | 1
100296195 | A5 480m | 6. He Isa Delight | 4,30 | 36,04 | 05/01/2009 11:14 | 05/01/2009 11:12 | 1
100296195 | A5 480m | 6. He Isa Delight | 4,40 | 6 | 05/01/2009 11:14 | 05/01/2009 11:14 | 1
100296195 | A5 480m | 6. He Isa Delight | 4,50 | 11,34 | 05/01/2009 11:14 | 05/01/2009 11:14 | 1
100296195 | A5 480m | 6. He Isa Delight | 4,60 | 4,66 | 05/01/2009 11:14 | 05/01/2009 11:14 | 1
100296195 | A5 480m | 6. He Isa Delight | 4,80 | 20,62 | 05/01/2009 11:14 | 05/01/2009 11:14 | 1
100296195 | A5 480m | 6. He Isa Delight | 5,40 | 2 | 05/01/2009 11:12 | 05/01/2009 11:12 | 1
...

In pratica BF ci dice che sulla sola selezione "He Isa Delight" dall'apertura del mercato fino alla chiusura ci sono state una serie di scambi da una quota minima di 2,76 fino a una quota massima d 5,4. Vale a dire un divario enorme. Come faccio a capire quale è stata la quota più rappresentativa di "He Isa Delight"? Ad esempio dal voume più elevato di scambi, in questo caso 1639£ @3. Allo stesso modo per le altre selezioni ricavo il mio ESEMPIO 1. Quindi su "He Isa Delight"la quota più rappresentativa non sarà  la più bassa, nè la più alta e nemmeno la media, ma la quota dove si verifiacano la maggior quantità  di scambi (che in genere coincide col maggior numero di scambi).

Quello che ne ricavo su base annuale è che a quota @3 le puntate sono più convenienti delle bancate perchè dall'analisi dei dati ho rilevato che nel lungo periodo la percentuale di vittorie a quota 3 riesce a coprire le sconfitte fino al punto di ricavarne un utile (NB è un esempio farlocco).

A questo punto tramite un bot incomincio a fare una serie di puntate @3 sugli eventi che mi interressano per verificare che concretamente riesco a ricavare qualcosa di buono ma purtroppo non è così. Perchè? Dove sbaglio? Immagino che l'interpretazione della quota più rappresentativa possa essere soggetta a una percentuale di margine d'errore. Quindi sottraggo la pecentuale d'errore (stimata 5%) dall'utile prospettato però ancora non ci siamo. Se faccio una serie di puntate @3 nel lungo periodo non vado in attivo.

Premetto che non so nulla di statistica quindi grazie in anticipo a tutti quanti siano interessati e disposti a mettersi in gioco su questo argomento. Sarò fuori per qualche gg, Buona Pasqua.

hth
didacus

Inviato: 03/04/2010 - 03:39
da didacus
Bhe! il mio primo thread incomincia bene, con un errore nell'oggetto :lol: :lol: :lol: parlo con le patate in bocca ...

Inviato: 04/04/2010 - 23:28
da raptor
nn ti posso dare una mano perchè con i numeri non sono un granchè ....ma secondo me chi punta a tre ha le stesse possiblità  di perdere/vincere di coloro che bancano a tre....

Inviato: 06/04/2010 - 00:37
da didacus
Ciao, diciamo che chi punta a @3 ha una percentuale del 33,33 che quell'evento si verifichi a proprio favore e chi banca del 66,66. Se la quota di mercato non è sovrastimata o sottostimata nel lungo periodo non fa differenza puntare o bancare perchè le cose dovrebbero equilibrarsi. Analizzando l'archivio di bf potrei ad esempio andare alla ricerca di uno squilibrio delle quote di mercato per decidere se puntare o bancare (value bet).

Ritornando all'esempio di "He Isa Delight", su base statistica si potrebbe anche tentare di capire qual'è il momento migliore per puntare o bancare al fine di chiudere un'operazione di tading. Qui però le cose si compliano parecchio perchè gli scambi ad una determinata quota non avvengono in un'unico momento, e a priori non c'è modo di sapere dove si verificherà  il maggior volume.

Inviato: 06/04/2010 - 03:20
da Ospite
mhhh...ho capito benissimo cosa intendi.....ma secondo me per i levrieiri è di difficile realizzazione...a differenza dei cavalli,dove chi conosce le quote(scalper),sa che statisticamente che entrando in un determinato momento del prelive,la quota tende ad andare nella direzione scelta...Questo perchè c'è molta più liquidità (non c'è paragone )Nel mio piccolo(100 euro giornalieri ),credo di poter dire,che nei levrieiri questo non possa succedere in maniera automatica....dato che parecchie volte e specialmente nelle corse con i favoriti, entra la testa di c***o di turno(io li chiamo papà )che cerca di puntare,puntare,ripuntare e naturalemnte farsi abbinare un determianto stake su un determinato levriero...(non sempre i favoriti veri e propri)stravolgendo il tutto in quel caso non c'è statistica che tenga,li si trratta di corsa truccata...il mio consiglio come scritto gia tempo fa,e farsi da soli le proprie statistiche e su di esse organizzare il proprio sistema di trading....mi farebbe piacere poter parlare più spesso dei levrieri su questo forum,ma credo sia quasi impossibile....son pochissime le persone che vogliono condividere,questa passione che per me giorno dopo giorno sta diventando un lavoro!!!!

Inviato: 06/04/2010 - 11:51
da didacus
Hei ciao, ho scelto i levrieri come esempio ma si può ragionare su qualsiasi mercato. In questo caso l'elaborazione dei dati d'archivio mi risulta semplificata perchè per le corse uk parliamo sempre di sei selezioni (una costante) e anche la quantità  di numeri è decisamente inferiore rispetto ai cavalli.

Cercare di individuare se vi sono squilibri su determinate quote o selezioni ecc.. è un'analisi che richiede meno impegno rispetto ad altre elaborazioni. Ad esempio potrei sapere che @3 si verificano spesso squilibri di mercato ed è più conveniente puntare. Oppure che su "He Isa Delight" statisticamente è più conveniente bancare ecc... Gli archivi che bf mette a disposizione permettono di fare analisi molto più sofisticate, utili ad esempio per fare operazioni di trading.

Però come dicevo nel mio primo post non trovo corrispondenza fra la proiezione che speravo si realizzasse e la realtà .

Su "He Isa Delight" dall'apertura del mercato fino alla chiusura ci sono state una serie di scambi da una quota minima di 2,76 fino a una quota massima d 5,4. Il problema credo sia questo: io stabilisco a posteriori che la quota @3 sia da prendere come riferimento per "He Isa Delight" perchè lì avviene il maggior volume di scambi. A priori però non posseggo tutti i numeri per fare questo calcolo con esattezza, quindi quando il bot opera sulla selezione può basarsi solamente quella parte di volumi di scambio che sono già  avvenuti e non su quelli futuri.

In effetti potrei provare a fare una serie di operazioni e poi confrontarle con i dati ricavati dalle statistiche per capire quanto divario si presenta.

Inviato: 07/04/2010 - 14:11
da raptor
didacus ha scritto:Hei ciao, ho scelto i levrieri come esempio ma si può ragionare su qualsiasi mercato. In questo caso l'elaborazione dei dati d'archivio mi risulta semplificata perchè per le corse uk parliamo sempre di sei selezioni (una costante) e anche la quantità  di numeri è decisamente inferiore rispetto ai cavalli.

Cercare di individuare se vi sono squilibri su determinate quote o selezioni ecc.. è un'analisi che richiede meno impegno rispetto ad altre elaborazioni. Ad esempio potrei sapere che @3 si verificano spesso squilibri di mercato ed è più conveniente puntare. Oppure che su "He Isa Delight" statisticamente è più conveniente bancare ecc... Gli archivi che bf mette a disposizione permettono di fare analisi molto più sofisticate, utili ad esempio per fare operazioni di trading.

Però come dicevo nel mio primo post non trovo corrispondenza fra la proiezione che speravo si realizzasse e la realtà .

Su "He Isa Delight" dall'apertura del mercato fino alla chiusura ci sono state una serie di scambi da una quota minima di 2,76 fino a una quota massima d 5,4. Il problema credo sia questo: io stabilisco a posteriori che la quota @3 sia da prendere come riferimento per "He Isa Delight" perchè lì avviene il maggior volume di scambi. A priori però non posseggo tutti i numeri per fare questo calcolo con esattezza, quindi quando il bot opera sulla selezione può basarsi solamente quella parte di volumi di scambio che sono già  avvenuti e non su quelli futuri.

In effetti potrei provare a fare una serie di operazioni e poi confrontarle con i dati ricavati dalle statistiche per capire quanto divario si presenta.


ricordando sempre che coin i numeri nn sono un campione , credo che seguendo questo ragionamento si possa cmq ricavare qualcosa di interessante.....però non si può fare statistica con i levrieri...non c'è volume di gioco e basta un "bùnon equilibrio di una gara X" a sconvolgere tutte le ricerche possibili...

Inviato: 07/04/2010 - 21:24
da didacus
Si hai ragione che sui levrieri la liquidità  sia inferiore rispetto ad altri mercati. Se non si raggiungono determinati volumi (o lavagne prossime al 100) direi che è inutile intervenire.