Oracle Autonomous Data Warehouse helpt competities, teams, media en andere gebruikers creatiever te worden met hun analyses tijdens en na wedstrijden.
Jeff Erickson | 5 juli 2024
Wanneer een voetbalteam in de aanval gaat, wachten spelers niet op toestemming om te bewegen. Als de bal in hun bezit is, neemt creativiteit het over en zijn er mogelijkheden in overvloed, maar de momenten zijn spaarzaam.
Op dezelfde manier wil een dwarsdoorsnede van belanghebbenden in voetbal buiten het veld in het Verenigd Koninkrijk, zoals mediakanalen, gokkantoren, individuele team- en competitieorganisaties en hun zakelijke partners, de vrijheid hebben om snel analyses te kunnen uitvoeren van data die beschikbaar is op de wedstrijddag en andere vormen van data. Tot voor kort werden die data, gegenereerd door de Premier League en andere competities, vaak opgeslagen in de systemen van verschillende leveranciers van sportdata, waardoor tussenpersonen en extra stappen nodig waren die creatieve analyse van data moeilijk maakten.
Ondersteund door data-experts van Oracle en een cloudinfrastructuur is er nu een bedrijf met de naam Football DataCo (FDC) dat al die wedstrijddata (in totaal 32 jaar aan data van 27 verschillende Britse competities en bekercompetities, plus doorlopende wedstrijdfeeds), in één Oracle Autonomous Data Warehouse consolideert. Het bedrijf is overigens eigendom van de Premier League and English Football League. De regeling geeft de Premier League een nieuw niveau van controle over de indrukwekkende hoeveelheid data die het bezit.
Als de meest populaire voetbalcompetitie ter wereld genereert de Premier League alleen al terabytes aan data op wedstrijddagen, die 25 keer per seconde worden vastgelegd door camera's terwijl alle spelers worden gevolgd terwijl ze rennen, elkaar passeren, schieten, schoten blokkeren, tacklen en andere 'gebeurtenissen' die op het veld plaatsvinden. Die data worden op verzoek beschikbaar gesteld aan de hierboven genoemde media, competitieanalisten en andere gebruikers.
"Nu kunnen we die data up-to-date houden als wedstrijden worden gespeeld, autonoom, en de gebruiker in staat stellen om in te zoomen en ze te doorzoeken via de eigen front-end van de Premier League", aldus Mark Bowden, product- en relatiemanager van FDC. Bowden denkt dat analisten die verbonden zijn aan de Premier League, andere Britse competities en hun partners, creatief zullen omgaan met de verzamelde data ongeacht de analysetool die daarbij gebruiken. De mogelijkheden zullen alleen maar toenemen als Oracle Autonomous Data Warehouse leert hoe mensen interactie kunnen aangaan met de data via grote taalmodellen voor generatieve AI (LLM's). "GenAI is een echte gamechanger voor de manier waarop we toegang hebben tot de data", zegt hij.
Door interactie met GenAI in plaats van SQL-programmeurs, zegt Bowden, kunnen verhalenschrijvers en creatieve types hun eigen benadering loslaten op storytelling met de data, "naast wat een dataspecialist zou kunnen bedenken," zegt hij. "Ik kijk daar naar uit."
Gebruikers kunnen het datawarehouse bevragen met eenvoudige vragen over de huidige prestaties van spelers, zoals welke afstand bepaalde middenvelders hebben afgelegd tijdens een wedstrijd en hoeveel balcontacten hebben gehad op de helft van de tegenstander. Een andere mogelijkheid is dat gebruikers de geschiedenis induiken, met vragen zoals hoe vaak een keeper het winnende doelpunt heeft gescoord in een Premier League-wedstrijd. Gebruikers kunnen het datawarehouse ook doorzoeken met complexe tactische vragen: speelt het achterstaande team te hoog tegen deze tegenstander? Hoe hebben andere teams gepresteerd met deze tactiek? Heeft de tactiek geleid tot veel doelpunten uit counters?
Alleen al de Premier League heeft data verzameld van 73.000 verschillende wedstrijden van 250 verschillende teams in 345 verschillende stadions, zegt Simon Wigley, een analytics director bij Oracle Technology Consulting, dat samenwerkt met FDC. "Voor elk van die wedstrijden weten we de opstellingen en de posities van elke speler, evenals wie erin werd gewisseld," aldus Wigley. Dat zijn data van ongeveer 20.000 spelers en 130.000 doelpunten, evenals statistieken over de managers en scheidsrechters. En hoewel VAR-beoordelingen relatief nieuw zijn in de Premier League en andere competities, is er data over 1200 VAR-beslissingen.
Toch valt al deze historische data in het niet bij de rijkdom aan data die op wedstrijddagen wordt gecreëerd door moderne, op AI gebaseerde systemen, zegt Wigley.
"Nu kunnen we die data up-to-date houden wanneer er wedstrijden worden gespeeld, autonoom, en de gebruiker in staat stellen om in te zoomen en de data te bevragen via de eigen front-end van de Premier League."
Neem de Premier League. Niet alleen verzamelen partners data over elke pass, schot, loopactie, tackle, corner, enzovoort. 39 miljoen van die gebeurtenissen staan nu in het datawarehouse, maar elk van die gebeurtenissen bevat weer ook een aantal attributen. "Als er een pass is, noteert het systeem de snelheid van de pass, wie hem heeft gedaan en wie hem heeft ontvangen," zegt Wigley. "Bij een hoekschop wordt de richting vastgelegd en wie hem heeft genomen." De lijst gaat maar door. In totaal zitten er 180 miljoen van die attributen in de geconsolideerde dataset, zegt hij.
"Dat zijn grondstoffen voor iemand zoals ik om elke vraag te beantwoorden", zegt Brian MacDonald, een Oracle data science cloud architect die gespecialiseerd is in sportanalyses. "Als ik naar een wedstrijd keek, zag ik soms iets en dan dacht ik bij mezelf: 'Hé, ik denk niet dat ik dat ooit eerder heb gezien.' Nu kan ik een analyse uitvoeren en vragen: 'Is dit ooit eerder gebeurd?' En als dat zo is, hoe vaak dan? De ene vraag leidt heel snel tot een andere vraag."
MacDonald zegt dat hij vaak naar het Oracle Analytics Platform zal gaan dat is verbonden met een Autonomous Data Warehouse en filters zal toepassen om een analyse te visualiseren door grafieken en tabellen te maken. "Ik zou misschien een soort van voorspellend model bouwen om te ontdekken wie de grootste kans heeft om een wedstrijd te winnen op basis van simulaties met behulp van historische data," zegt hij.
Door de manier waarop het verzamelen van data werkt, brengt het Oracle platform elke week content van lokale dataverzamelaars over naar 94.000 verschillende payloads in het datawarehouse. Timing is belangrijk: er zijn elke week honderden wedstrijden, waarbij in lagere competities data wordt verzameld op verschillende detailniveaus. Bovendien zorgen de bekercompetities van het Engelse voetbal ervoor dat schema's voortdurend veranderen. "Het systeem moet niet alleen weten om welke data het moet vragen, maar ook wanneer deze moet worden gevraagd," zegt Wigley. "Er is veel werk verricht om ervoor te zorgen dat onze code en onze logica het allemaal dekken."
Het systeem legt data op verschillende manieren vast voor verschillende doeleinden. Sommige van die payloads, waaronder opstellingen, toeschouwersaantallen en andere standaarddata van wedstrijden, worden vastgelegd in de data-opslag samen met trackingdata van spelers, waar analisten deze kunnen aggregeren en gebruiken om samenvattingen na wedstrijden te genereren en diepere analyses en voorspellingen te maken.
De volgende stap van het project, momenteel een proof of concept, is het gelijktijdig vastleggen van doorlopende wedstrijddata via wat Wigley de 'fast lane' noemt. Deze data wordt in realtime beschikbaar gesteld aan analisten. "Als er iets gebeurt in een Premier League-wedstrijd, kunnen gebruikers van het datawarehouse het onmiddellijk verwerken in hun analyse," zegt hij.
Nu hebben de Premier League en andere gebruikers toegang tot al deze wedstrijd- en historische data om te gebruiken zoals zij dat willen, aldus Wigley. De Premier League kan bijvoorbeeld relevante data rechtstreeks uit het datawarehouse halen, er GenAI op toepassen en gepersonaliseerde wedstrijdoverzichten maken voor fans in hun eigen taal op basis van parameters zoals een team, speler of positie op het veld waarin ze interesse hebben getoond.
Bowden van FDC zegt: "Het is een echte verschuiving voor ons om het gevoel te hebben dat we de controle en empowerment hebben om een breed scala aan uiteenlopende databronnen te gebruiken. En het spannende eraan is dat we niet precies weten wat er allemaal nog mogelijk is."
Het Oracle Analytics platform is een cloud-native service die de nodige opties biedt om het volledige analyseproces af te handelen, waaronder de data-invoer, modellering, visualisatie en samenwerking, zonder afbreuk te doen aan de beveiliging en het toezicht.
Oracle Analytics Cloud heeft data uit alle 380 wedstrijden verzameld om de winnaars van de Most Improbable Comeback en Most Powerful Goal van het seizoen 2024 te vinden.