Oracle Autonomous Data Warehouse aiuta i campionati, le squadre, i media e altri utenti a sfruttare in modo più creativo gli analytics durante e dopo le partite.
Jeff Erickson | 5 luglio 2024
Quando una squadra di calcio gioca in attacco, i giocatori non aspettano il permesso per muoversi. Con il possesso di palla, la creatività prende il sopravvento e le possibilità sono innumerevoli, ma le tempistiche sono rapidissime.
In modo analogo, nel Regno Unito una parte rappresentativa degli interessi calcistici a bordo campo (tra cui organi di stampa, società di scommesse, organizzazioni di singole squadre e campionati, nonché i loro partner commerciali) desidera potersi muovere liberamente e rapidamente nell'esplorazione delle possibilità nascoste nei dati relativi alle partite e in altre forme di informazioni. Fino a poco tempo fa, le informazioni generate dalla Premier League e da altri campionati e competizioni venivano spesso archiviati in sistemi di vari fornitori di dati sportivi, aggiungendo intermediari e ulteriori passaggi che ne rendevano difficile l'esplorazione creativa.
Ora, grazie al supporto degli esperti di dati Oracle e dell'infrastruttura cloud, la Football DataCo (FDC), azienda di proprietà congiunta della Premier League e della English Football League, sta consolidando in un unico Oracle Autonomous Data Warehouse tutti i dati delle partite (32 anni di dati relativi a 27 diversi campionati e competizioni a eliminazione diretta del Regno Unito, oltre ai feed in corso delle giornate di gara). L'accordo offre alla Premier League un nuovo livello di controllo sull'impressionante quantità di dati di cui è proprietaria.
In quanto campionato di calcio più popolare al mondo, la Premier League da sola genera terabyte di dati relativi alle partite, acquisiti 25 volte al secondo da telecamere che tracciano ogni giocatore, corsa, passaggio, tiro, parata, contrasto e altri "eventi" che accadono in campo. Questi dati vengono resi disponibili su richiesta ai media, agli analisti del campionato e ad altri utenti sopra citati.
"Ora possiamo mantenere questi dati aggiornati man mano che le partite si svolgono, in modo autonomo, e consentire all'utente di accedervi e interrogarli tramite il front-end della Premier League", afferma Mark Bowden, Product and Relationship Manager di FDC. Bowden ritiene che gli analisti legati alla Premier League, ad altre competizioni britanniche e ai loro partner dimostreranno tutta la loro creatività con i dati accumulati, utilizzando praticamente qualsiasi strumento di analytics. Le possibilità non faranno che aumentare man mano che Oracle Autonomous Data Warehouse imparerà a consentire alle persone di interagire con i dati attraverso modelli linguistici di grandi dimensioni (LLM) basati su intelligenza artificiale generativa. "GenAI è un vero punto di svolta rispetto alle modalità di accesso ai dati", afferma.
Come afferma Bowden, interagendo con GenAI invece che con i programmatori SQL, responsabili editoriali e creativi possono portare l'approccio allo storytelling con i dati "oltre i limiti che uno specialista di dati potrebbe sognare". "Mi piacerebbe molto poterne vedere i risultati."
Gli utenti potrebbero interrogare il data warehouse con semplici domande sulle prestazioni attuali dei giocatori, ad esempio per quanto tempo ha corso un particolare centrocampista durante una partita o quanti tocchi di palla ha effettuato nella metà campo avversaria. Oppure potrebbero porre domande storiche divertenti, ad esempio quante volte un portiere ha segnato il gol della vittoria in una partita di Premier League. Gli utenti potranno anche interrogare il data warehouse con domande tattiche complesse: la squadra in svantaggio sta giocando con una posizione troppo in avanti contro questo avversario? Quali risultati hanno ottenuto le altre squadre con questa tattica di gioco? Sono riuscite a fare molti gol in contropiede?
La sola Premier League ha raccolto dati relativi a 73.000 partite, 250 squadre e 345 stadi, afferma Simon Wigley, Analytics Director di Oracle Technology Consulting, che collabora con FDC. "Per ognuna di queste partite, conosciamo le formazioni e le posizioni di ciascun giocatore, oltre tutte le sostituzioni", afferma Wigley. "Si tratta di dati che riguardano circa 20.000 giocatori e 130.000 gol, oltre a statistiche su allenatori e arbitri. E sebbene le revisioni VAR (video-assisted referee) siano relativamente nuove in Premier League e in altre competizioni, sono disponibili dati su 1.200 di queste decisioni", osserva.
"Ma tutti questi dati storici sono ben poca cosa se paragonati alla ricchezza di informazioni raccolte ogni giorno dalle partite grazie ai moderni sistemi basati sull'intelligenza artificiale", afferma Wigley.
“Ora possiamo aggiornare questi dati durante lo svolgimento delle partite, in modo autonomo, e consentire all'utente di accedervi e interrogarli tramite il front-end della Premier League.”
Se consideriamo ad esempio la Premier League, i dati raccolti dai partner non riguardano solo ogni passaggio, tiro, corsa, contrasto, calcio d'angolo e così via (39 milioni di questi eventi sono ora nel data warehouse), ma anche una serie di attributi correlati a ciascuno di questi eventi. "Quando c'è un passaggio, il sistema registra la velocità, il giocatore che lo ha effettuato e quello che lo ha ricevuto", afferma Wigley. "Per un calcio d'angolo, il sistema registra la direzione e il giocatore che lo ha effettuato". L'elenco potrebbe continuare. "In totale, nel set di dati consolidato sono presenti 180 milioni di questi attributi", afferma.
Questo è il genere di informazioni di base che serve a qualcuno come me per rispondere a qualsiasi domanda", afferma Brian Macdonald, Data Science Cloud Architect di Oracle specializzato in analytics per lo sport. "Quando guardo una partita, potrei notare un'azione particolare e pensare di non averla mai vista prima. In questo caso, potrei fare un'analisi con una query del tipo: 'È mai successo prima?'. E in caso affermativo, chiedere quanto spesso sia successo. Una domanda porta a un'altra domanda molto rapidamente".
MacDonald afferma che spesso accede alla Oracle Analytics Platform con connessione a un Autonomous Data Warehouse, per applicare filtri e iniziare a visualizzare le analisi creando grafici e tabelle. "Potrei decidere di creare una sorta di modello predittivo, ad esempio per calcolare la probabilità di vittoria di una partita in corso, basato su simulazioni che utilizzano dati storici", afferma.
Il funzionamento della raccolta dati prevede che ogni settimana la piattaforma Oracle trasferisca nel data warehouse contenuti provenienti da collector di dati locali, per un totale di 94.000 payload diversi. La tempistica è importante: durante la settimana si svolgono centinaia di partite, con campionati minori che raccolgono dati a diversi livelli di dettaglio. Inoltre, con i tornei a eliminazione diretta del calcio inglese, i calendari cambiano costantemente. "Il sistema deve sapere non solo quali dati richiedere, ma anche quando richiederli", afferma Wigley. "Ci siamo impegnati molto per assicurarci che il nostro codice e la nostra logica fossero in grado di gestire tutte queste operazioni".
Il sistema acquisisce i dati in modi diversi per scopi diversi. Alcuni di questi payload, tra cui formazioni, presenze alle partite e altri dati standard sulle partite, vengono archiviati insieme ai dati di tracciamento dei giocatori, dove gli analisti possono aggregarli e utilizzarli per generare riepiloghi post-partita e alimentare analisi e previsioni più approfondite.
Il passo successivo del progetto, attualmente in fase di proof of concept, consiste nell'acquisire simultaneamente i dati delle partite in corso attraverso quella che Wigley chiama la "corsia di sorpasso". Questi dati vengono resi disponibili per gli analisti in tempo reale. "Quando accade qualcosa in una partita di Premier League, gli utenti del data warehouse saranno in grado di inserire immediatamente le informazioni correlate all'evento nelle loro analisi", afferma.
"Ora la Premier League e altri utenti hanno accesso a tutti questi dati storici e sulle partite, da utilizzare come meglio credono", afferma Wigley. Ad esempio, la Premier League potrebbe estrarre i dati rilevanti direttamente dal data warehouse, applicare GenAI e creare riepiloghi personalizzati delle partite per i tifosi nella loro lingua, in base a parametri, come una squadra, un giocatore o un ruolo in campo, per cui hanno espresso interesse.
Bowden di FDC afferma: "Per noi è un vero punto di svolta, avere il controllo e la possibilità di utilizzare una vasta gamma di fonti di dati diverse è un'esperienza straordinaria. E la cosa entusiasmante è che non sappiamo ancora esattamente dove ci porterà".
La piattaforma Oracle Analytics è un servizio cloud nativo che offre le funzionalità necessarie per risolvere l'intero processo di analisi, tra cui l'inclusione dei dati e la modellazione, la visualizzazione e la collaborazione senza compromettere la sicurezza e la governance.
Oracle Analytics Cloud ha analizzato i dati di tutte le 380 partite per individuare i vincitori della rimonta più improbabile e del gol più potente della stagione 2024.