De zin en onzin van Expected Goals

Publicatiedatum

woensdag 30 juni 2021

De geavanceerde statistiek Expected Goals duikt steeds vaker op in de traditionele voetbalmedia. Zo gebruikte de IJslandse bondscoach Arnar Vidarsson de statistiek onlangs in Villa Sporza, het EK-praatprogramma op Eén, om de prestaties van de Rode Duivels tegen Denemarken te duiden. Hoewel de statistiek reeds een achttal jaar geleden zijn intrede deed, werpt het gebruik ervan nog regelmatig vragen op. Deze bijdrage gaat dieper in op de zin en onzin van Expected Goals bij het analyseren van voetbalwedstrijden.

Wat is Expected Goals?

De prestaties van voetballers zijn moeilijk te beoordelen aan de hand van statistieken. Doelpunten zijn immers de enige acties die een direct meetbare impact hebben op het verloop en het resultaat van een voetbalwedstrijd, maar doelpunten zijn bijzonder schaars. Expected Goals biedt een oplossing. Anders dan wat de naam van deze statistiek doet vermoeden, meet Expected Goals niét het aantal doelpunten dat een ploeg had moeten maken in een wedstrijd maar wél de kwaliteit van de doelpogingen die een ploeg gecreëerd heeft. Doelpogingen komen immers veel vaker voor dan doelpunten en bieden daardoor meer inzichten in de prestaties van de spelers en de ploegen.

Expected Goals bepaalt voor iedere doelpoging de kans op een doelpunt op basis van de uitkomsten van zeer gelijkaardige doelpogingen in het verleden. De doelpoging waaruit Kevin De Bruyne het tweede doelpunt tegen Denemarken maakte, had een Expected Goals-waarde van 0.046 volgens het databedrijf Opta. Kortom, als de gemiddelde voetballer deze doelpoging duizend keer onder dezelfde omstandigheden voorgeschoteld krijgt, dan zouden die duizend pogingen 46 doelpunten opleveren. De doelpoging waaruit Thorgan Hazard het eerste doelpunt maakte, had een Expected Goals-waarde van 0.499. Ofwel, de gemiddelde voetballer zou uit 499 van die duizend pogingen een doelpunt puren.

Hoe wordt Expected Goals berekend?

Expected Goals-waardes worden niet bepaald door een voetbalexpert, een enorm complex algoritme of een supercomputer, maar wel door een relatief eenvoudig statistisch model. Dat model zou in het ideale geval op zoek gaan naar identieke doelpogingen in eerdere wedstrijden om de Expected Goals-waarde van een doelpoging te bepalen. Aangezien haast iedere doelpoging uniek is, is een dergelijke aanpak helaas niet mogelijk in de praktijk.

Het statistisch model stelt iedere doelpoging daarom voor aan de hand van een aantal kenmerkende eigenschappen. Belangrijke eigenschappen zijn de afstand tot het doel, de hoek met het doel en het lichaamsdeel dat de speler gebruikt om de doelpoging te benutten. Het model gaat dan op zoek naar eerdere doelpogingen met zoveel mogelijk gelijkaardige eigenschappen en berekent het percentage doelpogingen dat in een doelpunt resulteerde om de Expected Goals-waarde te bepalen. Hoe meer eigenschappen het model in rekening brengt en over hoe meer doelpogingen uit het verleden het model beschikt om mee te vergelijken, hoe nauwkeuriger de resulterende Expected Goals-waardes worden.

De Expected Goals-waarde van een specifieke doelpoging is niet uniek gedefinieerd, maar is afhankelijk van het statistisch model dat gebruikt wordt om die waarde te bepalen. Datawetenschappers die dergelijke statistische modellen ontwikkelen, moeten immers twee belangrijke beslissingen nemen, namelijk het soort van statistisch model dat gebruikt wordt en vooral welke eigenschappen van de doelpogingen in rekening worden gebracht. Deze keuzes zorgen ervoor dat de Expected Goals-waardes voor één en dezelfde doelpoging kunnen verschillen tussen verschillende bronnen en dat het ene model nauwkeurigere Expected Goals-waardes oplevert dan het andere model.

De statistische modellen die Expected Goals-waardes bepalen worden in het algemeen steeds nauwkeuriger omdat de gegevens die over voetbalwedstrijden verzameld worden steeds uitgebreider en gedetailleerder worden. De allereerste modellen hielden bijna uitsluitend rekening met de locatie van de doelpoging en het gebruikte lichaamsdeel, maar recentere modellen brengen veel meer bepalende factoren in rekening. Ze houden onder andere rekening met de snelheid van de aanval die voorafging aan de doelpoging om een onderscheid te maken tussen doelpogingen die ontstaan uit een trage opbouw of een snelle tegenaanval. Sommige modellen houden zelfs rekening met de hoeveelheid druk op de schutter en het aantal verdedigers tussen de locatie van de doelpoging en het doel.

De meeste modellen brengen de kwaliteiten van de schutter niet in rekening. Expected Goals is immers ontstaan als een statistiek voor het identificeren van aanvallende spelers die meer of minder doelpunten maken dan verwacht kan worden van een gemiddelde speler op basis van de kwaliteit van de doelpogingen die ze krijgen. Het is daarom belangrijk dat de prestaties van iedere speler op dezelfde schaal gemeten worden en dat de Expected Goals-waardes van de doelpogingen niet afhankelijk zijn van de kwaliteiten van de schutter.

Vertelt Expected Goals hoeveel doelpunten een ploeg had moeten maken?

De som van de Expected Goals-waardes van alle doelpogingen die een ploeg in een wedstrijd ondernomen heeft, wordt steeds vaker gebruikt als maat voor het aantal doelpunten dat die ploeg had moeten maken in de wedstrijd. Hoewel deze som een ruw beeld schetst van de krachtsverhoudingen in een wedstrijd, heeft deze aanpak drie belangrijke beperkingen die vaak over het hoofd gezien worden.

Een eerste beperking is dat traditionele statistische modellen bij het bepalen van de Expected Goals-waarde van een doelpoging een gemiddelde speler als schutter veronderstellen. Deze modellen negeren met andere woorden de specifieke kwaliteiten van de speler die de doelpoging onderneemt. Of Kevin De Bruyne of Jan Vertonghen aan het kanon staat, maakt geen verschil voor het model.

Een tweede beperking is dat de som van de Expected Goals-waardes geen rekening houdt met het verloop van een wedstrijd. Een ploeg die vroeg in de wedstrijd op voorsprong komt, voelt minder druk om veel doelpogingen te creëren dan een ploeg die vroeg in de wedstrijd op achterstand komt. Spelers gaan bij een ruime voorsprong bovendien vaak anders om met doelpogingen dan bij een achterstand. Expected Goals schetst daarom niet altijd een correct beeld van de ware prestaties van een speler of een ploeg in een wedstrijd.

Een derde beperking is dat Expected Goals-modellen de omstandigheden waaronder een doelpoging ondernomen werd maar deels in rekening kunnen brengen. De uitkomst van een doelpoging is namelijk afhankelijk van veel verschillende factoren. Een aantal van die factoren, zoals de locatie van de doelpoging of het door de schutter gebruikte lichaamsdeel, zijn eenvoudig waar te nemen. Andere beïnvloedende factoren, zoals de mentale toestand en vermoeidheid van de schutter, zijn moeilijker of onmogelijk waar te nemen.

Analyseert Expected Goals de volledige wedstrijd?

De Expected Goals-waardes van de doelpogingen die in een wedstrijd ondernomen werden, worden steeds vaker gebruikt om de prestaties van een speler of een ploeg in een specifieke wedstrijd te analyseren. Hoewel doelpogingen vaker voorkomen dan doelpunten, zijn ze nog steeds bijzonder schaars. De Expected Goals-waardes voor deze doelpogingen belichten dan ook slechts een klein deel van de desbetreffende wedstrijd. Expected Goals volstaat in de meeste gevallen dus niet om een waarheidsgetrouw beeld van een wedstrijd te schetsen.

Het principe van Expected Goals is daarom in de voorbije jaren veralgemeend van doelpogingen naar acties die vaker voorkomen, zoals passes, dribbels en onderscheppingen. Deze geavanceerde statistieken meten de kwaliteit van iedere actie die een speler met de bal uitvoert in een wedstrijd. De meeste acties leiden immers niet onmiddellijk tot een doelpunt, maar beïnvloeden wel het verdere verloop van een periode van balbezit.

Deze statistieken bepalen de kwaliteit van iedere actie als het verschil in de waarde van de spelsituatie voor de actie en de waarde van de spelsituatie na de actie. De waarde van een spelsituatie wordt uitgedrukt als de kans op het maken en het tegen krijgen van een doelpunt in de nabije toekomst. Een splijtende pass die de spits oog in oog met de doelman zet, verhoogt in de meeste gevallen de kans op het maken van een doelpunt. Een onderschepping van de bal op het middenveld verlaagt dan weer vaak de kans op het tegen krijgen van een doelpunt.

De statistische modellen die de basis vormen van deze geavanceerde statistieken worden ook wel Expected Possession Value-modellen genoemd en bepalen, op een gelijkaardige manier als Expected Goals-modellen, de waarde van een spelsituatie op basis van de uitkomsten van zeer gelijkaardige spelsituaties in het verleden. Aangezien haast iedere spelsituatie uniek is, stellen deze modellen iedere spelsituatie voor als een verzameling van eigenschappen die kenmerkend zijn voor die spelsituatie. VAEP (Valuing Actions by Estimating Probabilities) en xT (Expected Threat) zijn twee populaire varianten van dergelijke modellen.

Meer leren over Expected Goals?

Expected Goals is niet alleen in de media maar ook in de academische wereld een veelbesproken concept. De Britse toegepaste wiskundige David Sumpter, die in 2016 internationale bekendheid verwierf met zijn boek Soccermatics: Mathematical Adventures in the Beautiful Game, publiceerde in de lente van 2020 een aantal toegankelijke video’s over Expected Goals op YouTube: The Ultimate Guide to Expected Goals, How to Build An Expected Goals Model 1: Data and Model en How to Build An Expected Goals Model 2: Statistical Fitting.

Computerwetenschappers Pieter Robberechts en Jesse Davis van het DTAI Sports Analytics Lab van de KU Leuven publiceerden daarnaast een reeks van drie technische blogs over Expected Goals. Ze bespreken onder andere de impact van de hoeveelheid beschikbare data, de voorstelling van de eigenschappen van de doelpogingen en de kwaliteit van de beschikbare data op de nauwkeurigheid van Expected Goals-modellen.

Conclusie

Expected Goals duikt steeds vaker op in de traditionele voetbalmedia. De geavanceerde statistiek, die oorspronkelijk ontwikkeld werd om de prestaties van spelers en ploegen te meten over een langere reeks van wedstrijden heen, wordt steeds vaker gebruikt om individuele wedstrijden of zelfs individuele doelpogingen te analyseren. De modellen hebben echter een aantal beperkingen die tot misleidende resultaten kunnen leiden wanneer het aantal geanalyseerde doelpogingen beperkt is, zoals meestal het geval is bij een individuele wedstrijd. Expected Goals kan in dergelijke situaties wel nog steeds waardevolle inzichten bieden als de Expected Goals-waardes in de juiste context geïnterpreteerd worden.

Hartelijk dank aan Pieter Robberechts van het DTAI Sports Analytics Lab van de KU Leuven voor zijn waardevolle feedback op eerdere versies van deze bijdrage.