英超联赛利用 Oracle Cloud 整合英国足球赛事数据

Oracle Autonomous Data Warehouse 助力各种联赛、球队、媒体以及其他用户以更富新意的方式开展赛时和赛后分析。

Jeff Erickson | 2024 年 7 月 5 日


足球赛场上,当一支球队处于攻势时,球员们会主动出击,会随机应变而不是被动等待动作指令。他们会别出心裁地打出很多出其不意的进攻,创造出无限可能,带来各种稍纵即逝、让人目不暇接的精彩时刻。

与此同时,在场下,各种媒体、博彩公司、团队和联盟组织,以及商业合作伙伴等典型的足球利益相关方则希望快速探索、分析隐藏在比赛日数据和其他信息中的无尽可能性。然而,直到最近,这类数据(由英超联赛等联盟和类似组织生成)还普遍孤立地存储在各家体育数据供应商的系统中,很难以新方法来创造性地探索数据,因为整个过程不仅离不开中间方,还需要额外采取很多步骤。

现在,在 Oracle 数据专家和 Oracle Cloud Infrastructure 的支持下,Football DataCo (FDC) — 由英超联赛 (Premier League) 和英格兰足球联赛 (English Football League) 共同所有 — 将所有赛事数据整合到了一个 Oracle Autonomous Data Warehouse 中,既包括 32 年来 27 种英国联赛和淘汰赛的所有数据,还包括源源不断生成的比赛日数据。这将英超联赛对其掌握的数据宝藏的控制力提高到了一个新的高度。

作为全球最受欢迎的足球联赛之一,英超联赛仅仅一家就生成了数以 TB 计的比赛日数据。它通过摄像机每秒捕获 25 次数据,全面跟踪每一位球员、每一次跑动、每一次传球、每一次射门、每一次扑救、每一次拦截以及球场上的所有其他事件,然后应要求向媒体、联赛分析师以及上述其他用户提供数据。

FDC 产品和客户关系经理 Mark Bowden 表示,“现在,我们可以在球赛进行时始终且自动获取最新数据,用户也可以登陆英超联赛的前端平台来查询数据。”Bowden 预计,英超联赛和其他英国联赛及其合作伙伴的分析师将能够使用几乎任何分析工具,创造性地探索 FDC 积累的海量数据。另外,随着 Oracle Autonomous Data Warehouse 进化和引入新功能来帮助用户使用生成式 AI 大语言模型 (LLM) 进行数据交互,未来还将衍生出更多可能。“GenAI 现在已成为数据访问领域的一个颠覆者。”Bowden 说道。

Bowden 认为,通过使用 GenAI 而不是依靠 SQL 程序员进行数据交互,从事编辑类和创意类工作的用户可以按照自己的方法来讲述数据故事。“这无疑突破了传统数据专家的想象。”他表示,“我很希望看到这一幕的到来。”

现在,用户只需要简单地提出问题,例如特定中场球员跑动距离有多远和他们在对方半场触球多少次,就可以从数据仓库中查询相关数据,了解球员当前的表现。用户可以“询问”一些有趣的历史问题,例如某个守门员在某场英超联赛赛事中打进了多少制胜球。用户还能够查询复杂的战术问题,例如,落后球队相对对手是否踢得过于靠前?其他球队使用这种战术的效果如何?这种战术是否导致了许多反击进球?

数据宝藏

与 FDC 合作的 Oracle Technology Consulting 分析总监 Simon Wigley 表示,仅英超联赛就收集了 250 支球队来自 345 座体育场共计 73000 场赛事的数据。Wigley 说,“对于每一场比赛,我们都知道双方的参赛阵容和每位球员的站位,知道谁被替换下场。”英超联赛掌握的数据涵盖了约 2 万名球员和 13 万个进球,涵盖了球队教练和裁判的统计数据。即使在对于英超联赛和其他联盟来说相对较新的 VAR(视频助理裁判)审查方面,英超联赛也掌握了 1200 次判罚数据。

然而,在 Wigley 看来,与现代 AI 系统所创造的丰富的比赛日数据相比,所有这些历史数据都微不足道。

Now we can keep that data up to date as games are played, autonomously, and allow the user to go in and query it through the Premier League’s own front end.”

Mark Bowden Football DataCo 产品和客户关系经理

以英超联赛为例,除了英超联赛合作伙伴收集的传球、射门、跑动、拦截、角球等共计 3900 万次事件的数据(如今已纳入数据仓库)外,每一事件还自带多重属性。“当发生一次传球时,AI 系统会标注传球速度、传球球员和接球球员信息。”Wigley 说道,“对于角球,AI 系统则会标注方向和主罚者。”这样的例子不胜枚举。Wigley 表示,整合数据集中这样的属性数据多达 1.8 亿。

“对于像我这样的用户来说,这是回答所有问题的原始资料。”专门从事体育分析的 Oracle 数据科学云架构师 Brian Macdonald 表示,“当我观看一场比赛时,我可能在看到一些东西时说‘嘿,我觉得我以前从没见过这种东西’,然后我可以做一些分析,问‘以前发生过吗?’如果发生过,那么它的发生频率是多少?一个问题很快就会引出另一个问题。”

MacDonald 表示他会经常访问与 Oracle Autonomous Data Warehouse 连接的 Oracle Analytics Platform,筛选数据,创建图表和表格,进行可视化分析。他说:“我可能会构建一种预测模型,基于历史数据的模拟结果来预测进行中的比赛的获胜概率。”

构建数据“快车道”

在现行数据收集模式下,Oracle 平台每周将来自本地数据收集器的 94000 个有效数据载荷传输到数据仓库。这一过程中,时机非常重要:每周都有数百场比赛,各种低级别联盟会分别按照自己的细粒度收集数据。此外,英国的足球淘汰赛赛程也在不断变化。“系统不仅要知道应该收集哪些数据,还需要知道应该何时收集数据。”Wigley 表示,“为此我们做了很多工作来确保系统在代码和逻辑上满足所有要求。”

对于不同的使用场景,Oracle 系统采用不同的数据摄取方法。例如,一些有效数据载荷,包括阵容、上座率和其他标准赛事数据,会与球员追踪数据一起被纳入数据存储,以便分析师聚合信息,生成赛后总结,以及提供更深入的分析洞察和预测。

下一阶段(目前尚处在“概念验证”期),Oracle 将通过 Wigley 口中的“快车道”,在赛事进行的同时同步摄取数据。这意味着,届时分析师可以实时访问数据。Wigley 认为,“在一场英超联赛赛事进行期间,当场上发生了一件值得关注的事件时,数据仓库用户将能够即时将相关数据纳入分析。”

由此,Wigley 表示,对于一场比赛,英超联赛和其他用户可以访问所有信息以及可用于分析工作的所有历史数据。例如,英超联赛能够从数据仓库拉取相关数据,对数据应用 GenAI,然后基于球迷感兴趣的参数(例如球队、球员和场上位置),以自己的语言创建个性化的赛事总结。

来自 FDC 的 Bowden 表示:“对我们来说,这是一次真正的改变,我们感觉有了无穷的力量,能够充分利用大量、各种各样的数据源。我对这一切感到无比兴奋,未来有无限可能等待着我们去探索。”

注:为免疑义,本网页所用以下术语专指以下含义:

  1. 除Oracle隐私政策外,本网站中提及的“Oracle”专指Oracle境外公司而非甲骨文中国。
  2. 相关Cloud或云术语均指代Oracle境外公司提供的云技术或其解决方案。