Scoring Public .pdf



Nom original: Scoring_Public.pdf

Ce document au format PDF 1.5 a été généré par LaTeX with hyperref package / pdfTeX-1.40.17, et a été envoyé sur fichier-pdf.fr le 16/06/2017 à 19:30, depuis l'adresse IP 81.66.x.x. La présente page de téléchargement du fichier a été vue 445 fois.
Taille du document: 2 Mo (20 pages).
Confidentialité: fichier public


Aperçu du document


Projet Public - Guillaume Burnel

Avec quelle acuité peut-on prédire la résultat d’un match de
basketball ? Une modélisation peut-elle nous permettre de
"concurrencer" les bookmakers ?

Sommaire
1 Préliminaires
1.1 Contextualisation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.2 Les données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1
1
2

2 Statistiques descriptives et traitement des variables
2.0.1 Classement . . . . . . . . . . . . . . . . . . . .
2.0.2 Taille et Poids et Expérience . . . . . . . . . .
2.0.3 Lastdiff . . . . . . . . . . . . . . . . . . . . . .
2.0.4 WinLoss . . . . . . . . . . . . . . . . . . . . . .
2.0.5 VictoireA . . . . . . . . . . . . . . . . . . . . .
2.0.6 PTSBestA . . . . . . . . . . . . . . . . . . . . .
2.0.7 Autres variables . . . . . . . . . . . . . . . . .
2.1 Crossvalidation . . . . . . . . . . . . . . . . . . . . . .
2.2 Outil de mesures de la performance . . . . . . . . . . .
2.3 Les croisements de variables . . . . . . . . . . . . . . .
2.4 Détection des meilleurs candidats a priori . . . . . . .
2.5 Les variables finalement selectionnée . . . . . . . . . .

3
4
4
5
6
6
6
7
7
7
8
8
8

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

.
.
.
.
.
.
.
.
.
.
.
.

3 Résultats
10
3.1 Comparaison à des raisonnements simplistes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4 Affrontement avec les bookmakers
4.1 Que proposent les bookmakers ? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2 Les stratégies possibles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

11
11
12
13

5 Simulation du championnat 2017
5.1 Les cotes proposées par Unibet . . . . . . . . . . . . .
5.2 Rappel du principe de fonctionnement des playoffs . .
5.3 Simulation du championnat . . . . . . . . . . . . . . .
5.3.1 Deux remarques sur la structure des rencontres
5.3.2 Prédiction d’un scénario central . . . . . . . . .
5.3.3 Prédiction de la probabilité de victoire finale .
5.3.4 Pronostic . . . . . . . . . . . . . . . . . . . . .

14
14
15
15
15
16
16
17

. . . . . . .
. . . . . . .
. . . . . . .
de playoffs
. . . . . . .
. . . . . . .
. . . . . . .

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

.
.
.
.
.
.
.

1. Préliminaires

1

Introduction
Le présent mémoire se propose d’appliquer les méthodes de scoring à l’univers sportif. En particulier, on étudiera
ici la possibilité de prédire le vainqueur d’une rencontre de basketball du championnat américain (NBA), et même
mieux, tenter d’évaluer la probabilité de victoire de l’une ou l’autre des équipes. L’objectif est donc de prédire le
gagnant, mais aussi d’identifier les caractéristiques qui font qu’une équipe à davantage de chances de l’emporter.

1
1.1

Préliminaires
Contextualisation

Le championnat NBA est une ligue fermée composée d’équipes nord-américaines qui peut se décomposer en deux
phases. Lors de la première phase, appelée "saison régulière", toutes les équipes s’affrontent entre elles et jouent
un total de 82 matchs. Les équipes ne s’affrontent pas toutes le même nombre de fois en fonction de la proximité
géographique des villes dans lesquelles elles sont installées, créant un système de "conférence" (Est et Ouest), elles
même subdivisées en divisions (Atlantic, Pacific, Central, etc...).
Une fois la saison régulière achevée, l’équipe avec le plus de victoires n’est pas déclarée championne pour autant :
une deuxième phase bien distincte commence : les "playoffs". Certaines subtilités dans les modalités de ces playoffs
ont pu être modifiées au cours du temps, mais la logique à toujours été la même que celle existant encore aujourd’hui.
Les équipes sont classées en fonction du nombre de victoire accumulées durant la phase de saison régulière : dans
chacune des deux conférences, les 8 meilleures équipes sont qualifiées (ce qui ne correspond pas toujours aux 16
meilleures équipes au global) et sont disposées dans le tableau ci-dessous sans tirage au sort mais directement en
fonction de leur classement.

Graphique 1 – Tableau des playoffs
On entre alors dans une série de matchs éliminatoires, les équipes se qualifiant au meilleur des 7 matchs, c’est à
dire que la première équipe battant l’autre 4 fois passe au tour suivant, l’autre étant éliminée. A noter que l’équipe
la mieux classée de la saison régulière bénéficie de "l’avantage du terrain" : elle commence la série à domicile et a
l’assurance de jouer un éventuel match décisif à 3-3 à domicile également. On a ainsi un total de 15 affrontements au
meilleur des 7 matchs pour enfin désigner le champion de l’année.
Projet Big Data et Assurance

1. Préliminaires

2

L’objectif du projet est ici d’être capable de déterminer une probabilité de victoire sur les matchs des playoffs : il
est bien plus raisonnable de penser pouvoir prédire le résultat de ces matchs que ceux de la saison régulière, pour
lesquels les résultats sont parfois plus aléatoires (séries de déplacements avec peu de repos, matchs sacrifiés, matchs
sans enjeu en fin d’années,...). Pour cela, on utilisera justement les statistiques globales sur les 82 matchs de la
saison régulière des équipes et des joueurs qui les composent. A noter qu’on ne peut envisager d’utiliser les données
des saisons précédentes pour prédire une nouvelle : d’une part le volume important d’échanges de joueurs et le
système de draft (recrutement des nouveaux joueurs hors NBA via un système favorisant les moins bonnes équipes
de la saison précédente pour réequilibrer le championnat) peuvent bouleverser le niveau des équipes d’une année sur
l’autre, et d’autre part, certaines équipes apparaissent ou disparaissent empêchant la stabilité des individus-équipes
au cours du temps.

1.2

Les données

On ne rentrera pas ici dans les détails des méthodes de "web-scrapping" à mettre en place pour la récupération
des données, même si cela a constitué une étape importante (et chronophage) du travail. Toutes les données utilisées
sont issues de la même source : www.basketball-reference.com. On se contentera ici de présenter de manière
relativement exhaustive les groupes de données récupérées.
Tout d’abord il a fallu constituer une base de données de matchs de playoffs. Nous faisons le choix de récupérer
tous les matchs de la période 1980-2016, soit 37 années d’historique, correspondant à 2733 matchs. La raison pour
laquelle nous ne remontons pas plus loin en arrière afin d’accroitre la taille de notre base est l’existence d’une
tranformation radicale du basket intervenue en 1980 : l’invention de la ligne à 3 points (arc de cercle au-delà duquel
tout tir permet de marquer 3 points contre 2 pour un tir classique). Le style de jeu des équipes a tant changer qu’il
ne serait pas pertinent de prendre à la fois des années antérieures et postérieures à 1980.
Pour chaque match, l’une des équipes sera notée EquipeA et l’autre EquipeB, et notre modélisation cherchera à
évaluer la probabilité de victoire de l’EquipeA. Pour cela on utilisera une série de statistiques de la saison régulière
de chacune des deux équipes que l’on peut subdiviser en blocs décrits ci-dessous :
• Une série de statistiques collectives classiques de l’équipe ramenées par matchs telles que : le nombre de points
marqués, de rebonds, de passes décisives, de contres, le pourcentage de réussite au tirs, spécifiquement à 2
points, spécifiquement à 3 points, etc... (voir annexe). Cependant, en 37 années, les styles de jeu ont évolué :
par exemple en 2016, le nombre de tirs à 3 points tentés en moyenne par match est bien plus important qu’en
1980 au moment de l’invention de la ligne, ou encore les taux de réussite ont nécessairement varié en fonction
des années puisque la position de cette ligne à 3 points a été modifiée plusieurs fois au cours de l’histoire. Afin
de corriger cet effet qui fausserait toutes nos modélisations, on n’utilisera pas les données brutes en tant que
telles, trouvées sur notre source. On utilisera la position relative de l’équipe par rapport à la moyenne des
équipes de l’année. Ainsi pour rester sur l’exemple du tir à 3 points, on ne s’interesse pas au pourcentage de tir
absolu de l’équipe mais au fait qu’elle à un meilleur pourcentage que la moyenne de la NBA au cours de l’année
considérée. La liste exhaustive des variables ainsi que la signification de leurs noms peuvent être trouvées en
annexe. On ajoutera le suffixe T eamA ou T eamB pour différencier l’appartenance à l’une ou l’autre équipe du
match considéré.
• Une série de statistiques collectives classiques rigoureusement identiques au point précédent, et avec les mêmes
traitements effectués, à ceci près que se sont les statistiques moyennes DES ADVERSAIRES de l’équipe
considérée pendant la saison régulière. En effet, si le premier point permet de rendre compte de la qualité du
jeu de l’équipe, celui-ci permet d’évaluer la capacité d’une équipe à faire déjouer son adversaire. L’exemple
du pourcentage de réussite au tir est frappant : s’il est évidemment préférable d’avoir un taux de réussite
important pour une équipe, sa capacité à limiter le taux de réussite de son adversaire (c’est à dire la qualité
de sa défense) est tout aussi important. On ajoutera le suffixe OppA ou OppB (pour "opposant équipe A" et
"opposant équipe B") pour différencier l’appartenance à l’une ou l’autre équipe du match considéré.

Projet Big Data et Assurance

2. Statistiques descriptives et traitement des variables

3

• Le taux de victoire en saison régulière (plutôt que le nombre de victoire car certaines années ont été polluées
par des grèves et les équipes n’ont pas toutes disputées 82 matchs) : W LA et W LB (pour WinLoss)
• Le classement toutes équipes confondues sur la saison régulière : ClassA et ClassB
• SRS (Simple Rating System) qui est une notation de la saison régulière des équipes notamment en fonction de
l’écart moyen de leurs matchs. La moyenne de la ligue est à 0 : SRSA et SRSB
• Une série de statistiques du "5 majeur" de l’équipe (les 5 joueurs qui disputent le plus de minutes par matchs
en moyenne). La liste des variables correspond globalement à celle des statistiques collectives. On fait un
traitement différent en fonction du type de statistiques considérées. Pour les statistiques de nombre (points,
rebonds, contres, etc...), on évalue la poids du 5 majeur relativement au reste de l’équipe, avec pour objectif
d’évaluer s’il vaut mieux avoir un 5 majeur très fort avec quelques joueurs qui contribuent à l’essentiel du
résultat de leur équipe, ou au contraire avoir une profondeur de banc importante et une répartition des rôles
plus équilibrée entre titulaires et remplaçants. Pour les statistiques de taux de réussite, ou des caractéristiques
telles que l’âge, le poids, la taille ou le nombre de saison d’expérience en NBA, on retient la moyenne des 5
joueurs. On suffixera les variables respectivement majeurA et 5A ainsi que majeurB et 5B.
• On introduira des variables différentielles pour le taille, le poids et l’expérience : Dif f taille, Dif f poids et
Dif f experience en prenant l’équipe A en référence
• Les mêmes statistiques sont également considérées en choisissant pour chacune d’elle, le joueur de l’équipe
possédant le chiffre le plus élevé (suffixe BestA et BestB ).
• Le taux de victoire de l’équipe A (V ictoireA ) sur l’équipe B lors de leurs affrontement en saison régulière qui
constitue finalement un historique de match avec deux équipes identiques. On utilise un pourcentage car le
nombre d’affrontement peut-être très variables en fonctions des positions géographiques des équipes.
• HOM E qui est une indicatrice indiquant si l’équipe A se trouve à domicile
• Lastdif f désigne le nombre de points d’écart lors du dernier match de playoff entre les deux équipes (-4 si
l’équipe A a perdu de 4 points, 3 si l’équipe A a gagné de 3 points et "Game1" s’il s’agit du premier match de la
série). La variable LastGame indique seulement le vainqueur du match précédent sans tenir compte de l’écart.
• LastHOM E est une variable catégorielle indiquant si l’équipe A était à domicile lors du dernier affrontement
ou pas
Nous avons ainsi à notre disposition un total de 181 variables explicatives candidates par match. Dans la mesure
où l’on souhaite prédire le résultat du match, prédire la probabilité de victoire de l’équipe A n’est pas complétement
suffisant. En effet, on remarque que si l’on inverse les rôles des équipes A et B, la somme des deux probabilités ne
fait pas toujours 1. Comme l’issue d’un match est nécessairement la victoire de l’une des deux équipes, on effectue
l’opération suivante lorsque l’on veut afficher les probabilités réelle dans les sections suivantes :
P robaA =

ScoreA
ScoreA + ScoreB

P robaB =

ScoreB
ScoreB + ScoreA

On va donc doubler la taille de notre base de matchs pour atteindre 5466 matchs, en ajoutant à chaque fois le match
symétrique à celui de notre base originelle. Ainsi notre modèle sera "fitté" pour les matchs dans les deux sens.

2

Statistiques descriptives et traitement des variables

Si l’on se propose de transformer la plupart des variables en variables catégorielles, il faut essayer d’être relativement
parcimonieux dans le nombre de classes choisies dans la mesure où compte tenu de l’étroitesse de la base de données,
il faut exiger de ne pas avoir trop d’estimateurs si l’on veut espérer que notre modèle soit valable.

Projet Big Data et Assurance

2. Statistiques descriptives et traitement des variables

4

Pour une grande majorité des variables, et compte tenu de leur nombre, on effectuera une division de la variables
en 5 quantiles de tailles égales. Pour d’autres variables qu’on devine comme étant de bons candidats potentiels , on
effectuera une subdivision plus manuelle, par observation des taux de victoire empirique mais aussi à l’aide de la
compréhension de sa signification pour incarner une forme de logique
2.0.1

Classement

Compte tenu de l’allure du taux de victoire en fonction du classement
(de l’équipe et de son adversaire par symétrie), on choisi de conserver
un effet linéaire par parcimonie. Seule modification, les modalités de
classements supérieure à 16 étant très rares, elles ont été ramenées à
16. Sans surprise, plus une équipe est bien classée, plus son taux de
victoire est élevé.
2.0.2

Taille et Poids et Expérience

Pour gagner de la place, on ne présentera que les données pour l’équipe A, mais un découpage identique sera
choisi pour l’équipe B. On rappelle qu’ici les variables sont entendues comme la moyenne des valeurs des 5 joueurs
disputant le plus de minutes par matchs pendant la saison régulière. On créera et découpera également une variable
maétérialisant l’écart entre les deux équipes sur chacune de ces trois dimensions. En effet, il n’est pas exactement
identique de dire qu’il vaut mieux une équipe grande dans l’absolu, ou il faut surtout qu’elle soit plus grande que
celle de l’adversaire.

Graphique 2 – Taux de victoire / Ecart de taille

Graphique 3 – Taux de victoire / Ecart de taille

Graphique 4 – Taux de victoire / Taille Equipe

Graphique 5 – Taux de victoire / Taille adversaire

Il semble net qu’il est préférable d’avoir un 5 majeur de grande taille pour aller vers la victoire. Cependant, on note
qu’il faut que l’écart de taille soit assez important pour commencer à jouer un vrai rôle.

Projet Big Data et Assurance

2. Statistiques descriptives et traitement des variables

5

Graphique 6 – Taux de victoire / Ecart de poids

Graphique 7 – Taux de victoire / Poids Equipe

Il semble qu’il soit préférable d’avoir une équipe lourde (ce qui est d’ailleur lié à la taille). Néanmoins, on note qu’il
faut que le différentiel de kilos soit réellement important pour avoir une influence réelle.

Graphique 8 – Taux de victoire / Ecart Experience

Graphique 9 – Taux de victoire / Expérience Equipe

Avoir un cinq majeur peu expérimenté semble être une barrière importante à un taux de victoire fort. Cependant les
chances de victoires ne sont pas complètement croissantes dans l’expérience car au-delà d’un certain âge, on peut
penser que l’âge joue un effet négatif.
2.0.3

Lastdiff

Il s’agit ici d’utiliser l’écart lors du match précédent pour expliquer le résultat du match suivant. Le découpage a
ici suivi un raisonnement de "logique basket" et non statistique.
• Première tranche, victoire ou defaite de 3 points ou moins : concrètement, cela signifie que le match s’est joué
à une seule possession d’écart, c’est à dire que l’équipe perdante a eu l’occasion de l’emporter ou d’égaliser sur
un dernier tir dans les dernières secondes du match
• Deuxième tranche entre 4 et 8 points d’écart, correspondant à une équipe qui a tenté de revenir en fin de
match notamment en faisant des fautes mais a échoué
• Les autres tranches désignent des écarts croissants classiquement utilisés pour décrire un match de la victoire
large à la victoire sans appel.
On remarque un phénomène qui n’est pas forcément intuitif :
la modalité qui permet d’obtenir le meilleur taux de victoire
au match est d’avoir perdu de très peu le match précédent
(58%) ! Ceci montre le fait que les séries de 7 matchs de playoffs
sont faites d’actions et de réactions. Pour des écarts supérieurs
à 8 points, on retrouve un phénomène attendu : l’écart de
niveau observé sur un match est suffisament important pour
Projet Big Data et Assurance

2. Statistiques descriptives et traitement des variables

6

qu’il ait de bonnes chances de se reproduire au match suivant. A noter que l’alternance des résultats peut aussi être
en partie la conséquence de l’alternance des matchs à domicile et à l’exterieur pendant une série de playoff.
2.0.4

WinLoss

Le taux de victoire lors de la saison régulière (nécessairement fortement lié au classement de l’équipe) peut être
considéré comme ayant un effet linéaire.

Graphique 10 – Taux de victoire playoff / Taux de victoire saison régulière
2.0.5

VictoireA

L’observation de la relation entre les 13 modalités de taux de victoire existantes entre deux équipes nous fait
dégager assez nettement 5 paliers (attention à l’ouverture et fermeture des intervalles). Sans grande surprise, plus les
rencontres de saison régulière ont été à l’avantage d’une des équipes, plus les chances qu’un match de playoff tourne
à son avantage sont grandes.

Graphique 11 – Taux victoire / Taux de victoire
affrontement saison
2.0.6

Graphique 12 – Taux victoire / Taux de victoire
affrontement saison

PTSBestA

L’importance d’avoir un joueur marquant beaucoup de points semble une évidence, cependant on peut se demander
jusqu’à quel stade, dans la mesure où cela rend le collectif très dépendant d’une seul joueur qui peut être en méforme
ou se blesser. On remarque qu’effectivement il ne semble pas efficace d’avoir un joueur marquant plus de 26 points
par match.

Projet Big Data et Assurance

2. Statistiques descriptives et traitement des variables

7

Graphique 13 – Taux de victoire / Points par match du meilleur marqueur
2.0.7

Autres variables

Les autres variables ne seront pas détaillées, mais elles ont été découpées en fonction de 5 quantiles.

2.1

Crossvalidation

Afin de tester au mieux la qualité du modèle que l’on construit, on va diviser notre échantillon en deux parties :
une base d’apprentissage comprenant 70% des données et une base de test comprenant les 30% restant. La base
d’apprentissage est la base sur laquelle nous allons optimiser les paramètres de notre modèle logit tandis que la base
de test sera celle sur laquelle on évaluera la qualité de nos prédictions via différents indicateurs de performance.

2.2

Outil de mesures de la performance

On remarque rapidement que les méthodes f orwards, backwards et autres stepwise, basées sur le critère AIC
qui permettent l’automatisation de la selection des variables, outre qu’elle sont relativement longues à s’exécuter, ne
donnent pas de résultats satisfaisants. En effet, la qualité prédictive des modèles optimisés avec l’AIC conduisent à
un AUC et un indice de Gini assez faible (entre 0.6 et 0.65 d’AUC) alors même qu’un modèle logit simple avec une
selection de variable intuitive utilisant seulement le classement par exemple, obtient des performances supérieures
(0.68 d’AUC). Ainsi, on optimisera le modèle directement à partir des critères de performance mesurés sur la base de
test.
On ne redetaillera pas completement ici les définitions des différents outils et renvoyons au cours pour plus de
précisions :
• La courbe ROC : représentation graphique qui dessine le taux de vrais positifs sur le taux de faux positifs,
pour tous les seuils possibles. Lorsqu’une courbe d’un modèle 1 est au dessus de celle d’un modèle 2, alors cela
signifie que le modèle 1 est meilleur car sa prédiction est meilleure pour tous les seuils
• L’AUC qui peut s’interpréter comme l’aire sous la courbe ROC. Elle résume ainsi l’information de la courbe
ROC en une seule valeur entre 0 et 1.
• La courbe de selection : elle est la jonction des points placés pour tout le spectre des seuils possibles avec en
ordonné le taux de faux positif et en absisse la proportion de positif prédits
• L’indice de Gini qui peut s’interpréter comme le rapport entre l’aire située entre la courbe de selection et la
diagonale avec l’aire située au dessus de la courbe du modèle parfait.
• Le tau de Kendall
Chacun de ses éléments est bien sûr évalué sur la base de test. C’est à l’aide de ces éléments que l’on décidera de
garder ou non telle ou telle variable.

Projet Big Data et Assurance

2. Statistiques descriptives et traitement des variables

2.3

8

Les croisements de variables

Après différents essais, nous ne sommes pas parvenus à identifier de croisements de variables pertinents et notre
modèle n’en comportera donc pas.

2.4

Détection des meilleurs candidats a priori

Compte tenu du nombre très important de variables à notre disposition (d’autant qu’elle ont été subdivisées en
variables catégorielles), il est absolument essentiel de déterminer quelles sont les variables les plus pertinentes pour
construire notre modèle efficacement. D’une part on considère le lien entre nos variables explicatives candidates : en
effet, on veut éviter d’utiliser une information redondante et on prendra garde aux liens qui unissent les variables
finalement selectionnées. D’autre part, on étudie la force du lien avec notre variable explicative, afin de tester en
priorité les variables avec un fort lien. On utilisera également une forme d’intuition sur les variables à selectionner de
par la connaissance du fonctionnement du basket, ainsi que l’observation des graphiques que l’on trouve dans le début
de la section 2 permettant d’identifier les variables dont les classes semblent les plus discriminantes. L’observation
des premiers découpages fait par des algorithmes de "machine learning" nous donne aussi des indications sur les
premières variables à considérer.

Graphique 14 – Cramers entre les variables

2.5

Les variables finalement selectionnée

Le modèle finalement conservé possède un AUC de 0.750, un indice de Gini de 0.50 et un tau de Kendall de 0.354.
Voici la liste des variables et l’interprétation que l’on peut donner aux coefficients obtenus. A noter qu’une fois ses
variables selectionnées, on a essayé de trouver de meilleures subdivisions en classe ou de tester si un effet linéaire

Projet Big Data et Assurance

2. Statistiques descriptives et traitement des variables

9

pouvait être préférable, mais aucune amélioration sensible n’a pu être obtenue :
• V ictoireA : Plus les affrontements de saison régulière ont été à l’avantage d’une équipe, plus elle a de chance
de l’emporter au cours d’un match de playoff contre cette même équipe.
• Lastdif f : on observe globalement les effets présentés dans la section 2.0.3
• HOM E : L’équipe à domicile possède l’avantage
• SRSA et SRSB : Plus celui-ci est élevé, plus les chances de victoires sont grandes
• Dif f poids : L’équipe dont le cinq majeur est plus lourd que son adversaire possède un avantage. L’avantage
est d’autant plus grand que l’écart de poids est important
• T xF GT eamA et T xF GT eamB : Le pourcentage de réussite au tirs de l’équipe augmente ses chances de
victoires
• AST T eamA et AST T eamB : Plus une équipe réalise de passes décisives, plus elle a de chances de l’emporter.
Les passes décisives sont le marqueur d’une équipe se basant sur un bon collectif et pas seulement des
performances individuelles.
• P F T eamA et P F T eamB : L’effet n’est pas simple à commenter. Il s’agit en fait d’un équilibre entre une
équipe faisant trop de fautes ce qui la pénalise (un joueur est exclu au bout de 6 fautes), et une équipe en
faisant trop peu, témoignant d’un manque d’aggresivité.
• T xF GOppA et T xF GOppB : La capacité d’une équipe à provoquer une pourcentage au tir de son adversaire
bas est le marqueur d’une bonne défense et augmente ses chances de victoire.
• P T SOppA et P T SOppB : Le fait que l’adversaire marque peu de points accroit les chances de victoires de
l’équipe.
• T xF GAmajeurA et T xF GAmajeurA : Il semble être favorable que les joueurs majeurs prennent une proportion importante des tirs de l’équipe.
• T OV BestA et T OV BestA : le fait d’avoir un joueur ayant beaucoup de pertes de balles est un mauvais point.
Il signale souvent un joueur privilégiant un jeu personnel au détriment du collectif.
• T x2P 5A et T x2P 5A : Le taux de réussite au tirs à 2 points des joueurs du 5 majeurs est un élément clefs
pour la victoire d’une équipe.
• DRB5A et DRB5A : Plus le nombre de rebond défensifs pris par une équipe est important et plus cela limite
le nombre de "deuxième chance" que l’adversaire a de marquer.
• BLK5A et BLK5B : Les statistiques de contres sont un bon marqueur d’une équipe qui empêche l’adversaire
de concrétiser des tirs faciles proches du panier.
• ClassA : Les équipes les mieux classées sont en toute logique les meilleures.
Voici les graphiques des courbes ROC et de selections successives obtenues par l’ajout des variables listées ci-dessus
et dans cet ordre.

Projet Big Data et Assurance

3. Résultats

10

Graphique 15 – Courbe ROC successives jusqu’au meilleur modèle

Graphique 16 – Courbe de selection successives jusqu’au meilleur modèle

3
3.1

Résultats
Comparaison à des raisonnements simplistes

A l’évidence, certains facteurs ont une importance capitale pour identifier le vainqueur d’un match. Il est intéressant
de comparer la performance de notre modélisation à deux stratégies caricaturales : prédire systématiquement (100%

Projet Big Data et Assurance

4. Affrontement avec les bookmakers

11

de probabilité) la victoire à domicile ou prédire systématiquement la victoire de l’équipe la mieux classée. On constate
que pronostiquer la victoire de l’équipe à domicile donne le bon résultat dans 65% des cas et pronostiquer la victoire
du mieux classé dans 62.3% des cas. Notre modèle, appliqué sur la base de test donne 68.9%.
Si l’observation brute de ces taux, montre qu’un raisonnement simpliste permet d’avoir raison dans presque deux
tiers des cas, l’utilisation des courbes ROC et de selection illustre la caricature de ces stratégies puisque l’on fait une
prédiction de 100% de chance de victoire.La courbe rouge représente notre modèle et les courbes vertes et jaunes
respectivement le pronostic de la victoire à domicile et du mieux classé.

Graphique 17 – Courbe ROC et courbe de selection
Dans la section suivante, on constatera également que ces deux stratégies ne sont pas véritabement payantes non
plus dans le cas de paris sportifs auprès d’un bookmaker.

4
4.1

Affrontement avec les bookmakers
Que proposent les bookmakers ?

Les paris sportifs sont aujourd’hui particulièrement développés et des bookmakers proposent pour chaque match
une cote pour chacun des deux équipes. Traduisons l’exemple du dernier match de la finale 2016.

Pour une mise de 10 euros, pronostiquer de manière correcte la victoire de Golden State vous permet d’encaisser
15.2e= 1.52 ∗ 10 (soit un gain de 5.2e) et pronostiquer correctement la victoire de Cleveland vous permet d’encaisser
26.3 e= 2.63 ∗ 10 (soit 16.3ede gain). Un pari perdu conduit à la perte de l’ensemble de la mise.
Notre modèle nous permet d’évaluer la probabilité de victoire de chacune des deux équipes (en utilisant l’inversion
équipe A/équipeB) et donc il est interessant de se comparer aux probabilités implicites calculées par le bookmaker
qui sont cachées derrière la cote qu’il propose. En effet, en prenant l’inverse de la cote proposée, on obtient la
probabilité évaluée par le bookmaker. Ainsi, une cote de 2 pour la victoire d’une équipe signifie qu’elle est considérée
comme ayant 50% de chance de gagner. Si jamais on sait de manière certaine (en se supposant omniscient) que les
chances sont en réalité de plus de 50%, l’espérance de gain en pariant sur cette équipe serait strictement positive.
On a pu récupérer des données historiques des bookmakers sur la période 2012-2016, soit 5 années d’historique
correspondant à 425 matchs sur le site http://www.oddsportal.com/basketball/usa/nba/results/

Projet Big Data et Assurance

4. Affrontement avec les bookmakers

4.2

12

Les stratégies possibles

Voici une liste des stratégies d’investissement qui peuvent ête envisagées. Les quatres premières sont des "tactiques"
simplistes et systématiques qu’il faudra essayer de battre (en plus de faire mieux que le bookmaker) en utilisant
notre modélisation.
• Stratégie 1 : Pronostiquer systématiquement sur l’équipe la mieux classée de la saison régulière
• Stratégie 2 : Pronostiquer systématiquement sur l’équipe à domicile
• Stratégie 3 : Pronostiquer toujours la plus petite cote du bookmaker, c’est à dire le favori
• Stratégie 4 : Pronostiquer toujours la plus grosse cote du bookmaker, c’est à dire l’outsider
• Stratégie 5 : Calcul de la probabilité de victoire de l’équipe A et de l’équipe B à partir de notre modélisation.
On pronostique alors sur l’équipe que l’on considère comme ayant la plus grande chance de gagner mais sans
tenir aucun compte des cotes proposées par le bookmaker
• Stratégie 6 : Calcul avec notre modèle de la cote juste pour A et pour B, et comparaison avec les cotes
proposées par le bookmaker. On pronostique A ou B si jamais la cote calculée est inférieure à celle proposée
par le bookmaker (c’est-à-dire que le bookmaker sous-estime selon nous les chances de victoire de l’équipe). Si
aucune des deux équipes ne semble sous-estimée, on ne pronostiquera pas.
• Stratégie 7 : On reproduit la stratégie précédente (Stratégie 6) à ceci près qu’on se refuse à parier si jamais
la cote que l’on s’apprête à jouer est supérieure à 4. L’idée sous-jacente est de penser que la période de
retour risque d’être longue et que les chances d’un pari gagnant deviennent trop basse. De plus, les erreurs
d’estimations de la proba (en 1/x) peuvent devenir grandes.
• Stratégie 8 : On reproduit la stratégie 6, à ceci près que l’on refuse de parier si jamais la stratégie nous incite
à parier sur l’équipe qui n’est pas favorite. On cherche ici à maintenir un taux de paris gagnants important.
• Stratégie 9 : On reproduit la stratégie 6, à ceci près que l’on refuse de parier si jamais la stratégie nous incite
à parier sur l’équipe favorite. On mise ici sur la réussite de grosses cotes, sans craindre que notre taux de paris
gagnants soit faible.
• Stratégie 10 : On reproduit la stratégie 6 à ceci près que l’on ne compare pas directement la cote du bookmaker
avec celle calculée. On va comparer la cote du bookmaker avec la cote calculée après avoir retranché 5 points
de pourcentage à la probabilité de victoire de chaque équipe. Ainsi, pour parier sur une équipe ayant une
probabilité de victoire calculée de 0.75, il faudra que la cote proposée soit supérieure à 1.43 = 1/0.70 et non
pas à 1.33 = 1/0.75. L’idée sous-jacente est de parier uniquement lorsque la sous-estimation des chances d’une
équipe par le bookmaker est vraiment importante.
• Stratégie 11 : On reproduit la stratégie 7 mais en utilisant le système de calcul de la stratégie 10
• Stratégie 12 : On reproduit la stratégie 8 mais en utilisant le système de calcul de la stratégie 10
• Stratégie 13 : On reproduit la stratégie 9 mais en utilisant le système de calcul de la stratégie 10
• Stratégie 14 : On se calque sur la stratégie 6 au départ sauf que l’on fait évoluer notre mise en fonction du degré
de sous-evaluation de l’équipe par le bookmaker. On utilisera notre mise de référence pour une dégradation
de la probabilité entre 2 et 5 points de pourcentage, on divise par deux pour une dégradation infèrieure à 2
points, on multiplie par 2 pour une marge supérieure à 5 points.

Projet Big Data et Assurance

4. Affrontement avec les bookmakers

13

On remarque que plusieurs des stratégies utilisées précédemment évoquent comme argument le taux de paris
gagnants. Si celui-ci n’a effectivement aucune valeur en termes d’argent, il est en fait assez important : en effet accepter
un taux de pari gagnant bas signifie que l’on accepte de faire une série relativement importante de paris perdants.
Or, selon le montant de la mise sur chaque pari, perdre 3, 4 ou 5 paris consécutifs peut s’avérer problématique car il
crée un trou dans le budget pouvant dans la réalité engendrer l’arrêt des paris (à la manière de la théorie de la ruine
en assurance). L’effet est effectivement gommé si l’on fait l’hypothèse d’une richesse infine. Comme on ne souhaite
pas s’imposer de limite de budget, on essaiera de traduire cette dimension par le calcul d’un rendement que l’on
définit comme suit :
Gain algébrique global
Rendement =
Somme totale des mises
Pour rendre les montant misés parlants, on considère une mise de référence de 10 e.

4.3

Résultats

Voici les résultats obtenus résumés dans un tableau.

Les remarques que l’on peut faire sont les suivantes :
• Les stratégies sont pour la plupart perdantes. Les seules stratégies gagnantes sont 6, 7 et 9.
• Les 4 premières stratégies déterministes donnent des résultats extrêmement mauvais, toutes nos stratégies
utilisant notre modélisation donnent de meilleurs résultats
• Les meilleures stratégies ne sont pas celles ayant le meilleur taux de paris gagnants, au contraire.
• Parier sur trop peu de paris peut hypothéquer les chances d’un résultat positif car laisse plus de chance à l’aléa.
On comprend en fait que la "marge" faite par les bookmakers est trop importante pour nous permettre de le batttre.
En effet, on rappelle que l’inverse de la cote proposée équivaut à la probabilité de victoire de l’équipe considérée
évaluée par le bookmaker. Or si l’on somme ces deux inverses, on n’obtient pas 1 alors même que la victoire de
l’une ou l’autre équipe est un système complet d’événements. Si l’on reprend l’exemple déjà évoqué plus haut, on a
1
1
1.52 + 2.63 = 1.038 En moyenne sur les 425 matchs à disposition on obtient en moyenne 1.036.
Afin de neutraliser cet avantage trop important du bookmaker, on se propose de "booster" les cotes proposées de
la manière suivante :
CoteAnomargin =

1
1
CoteA

CoteBnomargin =

1
1
CoteA + CoteB

1
1
CoteB

1
1
CoteA + CoteB

De cette manière, on garde les mêmes proportions de chances de victoire des deux équipes, mais on fait disparaitre
la marge du bookmaker. Voici le nouveau tableau de résultat.

Projet Big Data et Assurance

5. Simulation du championnat 2017

14

Sans surprise, les résultats financiers sont meilleurs puisque tout en conservant les mêmes résultats et les mêmes
prédictions, les rendements des paris gagnants se trouvent augmentés. A noter que les "stratégiebis" désignent les
stratégies où les cotes sans marge sont utilisées non seulement pour le rendement, mais aussi pour la prise de décision,
ce qui permet aux proportions de paris tentés et de paris gagnants de changer.
Les remarques faites précédemment sont globalement conservés. La différence étant que cette fois, on parvient à
être dans le vert presque systématiquement. Certaines stratégies permettent d’atteindre un rendement de 6% de ce
qui est plutôt significatifs : à chaque fois ce sont des modèles relativement parcimonieux sur le nombre de pronostics
tentés et qui accepenten un taux de paris gagnants plutôt modéré.
Le problème est que les bookmakers ne proposent jamais de cote sans marge et nos stratégies sont alors souvent
perdantes. Cependant, on peut essayer de réduire cette marge en faisant jouer la concurrence. En effet, rien n’empêche
de jouer chez différents bookmakers en fonction de notre prédiction. Or, les bookmakers ne proposent pas exactement
les mêmes cotes, et en prenant la cote la plus grande de chaque équipe, on peut essayer de réduire la marge. En
prenant quelques exemples, il semble toutefois difficile de s’approcher d’une marge de 0.
A noter qu’il existe aussi des cotes pour prédire simplement le nom du vainqueur des playoffs ou des finalistes.

5

Simulation du championnat 2017

Maintenant que nous avons un modèle capable de prédire le résultat d’un match de playoff, il est interessant de
chercher à prédire non pas un match, mais la probabilité de gagner le championnat, ou d’arriver en finale, pour
lesquelles il existe aussi des paris. Pour cela on utilisera des méthodes simulatoires après avoir reconstitué la structure
complexe des playoffs NBA.

5.1

Les cotes proposées par Unibet

Avant le début des playoffs, nous avons pu récupérer la liste des cotes proposées par le site Unibet sur le vainqueur
des playoffs ainsi que les vainqueurs par conférence (les finalistes). La somme des inverses des cotes donne 1.315
pour le pronostic du champion. On voit bien que le bookmaker prend une marge très grande sur ce type de pari !
(elles seront détaillées dans un tableau plus bas)

Projet Big Data et Assurance

5. Simulation du championnat 2017

5.2

15

Rappel du principe de fonctionnement des playoffs

La format des rencontres actuelles est au meilleur des 7 matchs. Les équipes alternent les matchs à domicile
selon le schéma suivant (en notant Fav et Out l’équipe la mieux classé/favorite et la moins bien classée/Outsider :
Fav-Fav-Out-Out-Fav-Out-Fav.

5.3

Simulation du championnat

Pour évaluer les probabilités de scénarios de victoire finale des équipes, on va procéder en deux étapes. Dans un
premier temps on va évaluer par méthode simulatoire la probabilité de victoire dans chacune des 120 rencontres en
7 matchs possibles compte tenu des 16 équipes qualifiées. Une fois ces probabilités connues, on pourra facilement
déterminer la probabilité de chacun d’aller à l’un ou l’autre des tours.
Notre modélisation permet de prédire la probabilité pour chacune des autres équipes de gagner un match.
Cependant, ce modèle inclue la présence d’une variable décrivant le résultat du match précédent, et il faut donc que
notre simulation en tienne compte. Or si on peut établir une probabilité de victoire, on ne prédit pas l’écart par
lequel l’équipe gagne alors même que c’est une information nécessaire pour évaluer au mieux le match suivant de la
rencontre. Afin de rendre compte du phénomène, on procéde à une évaluation empirique des écarts des matchs sur
l’ensemble de notre base de données avec 37 années d’historique. On obtient la répartition suivante ci-dessous. On
fera alors un tirage selon cette proportion pour déterminer la tranche d’écart entre les deux équipes après avoir
déterminé le gagnant du match.

Graphique 18 – Répartition empirique des écarts de score selon les classes définies en amont
Pour un match donné (hors Game1 de la rencontre), il y a donc 20 possibilités de disposition entre le choix de
l’équipe qui joue à domicile (2 cas) et le résultat du match précédent (10 cas). On a donc 21 (en rajoutant le Game1
qui est défini à l’avance) combinaions de matchs où il faut évaluer la probabilité de victoire de chacune des deux
équipes. Il ne reste alors plus qu’à lancer des simulations. Ici, nous avons effectué 10 000 simulations de rencontres
de 7 matchs, pour chacune des 120 oppositions possibles dans ces playoffs.
5.3.1

Deux remarques sur la structure des rencontres de playoffs

On constate qu’il y a bien moins d’aléa sur une recontre au meilleur des 7 matchs que sur un unique match. Pour
illustrer cela en dehors de tout cas simulatoire, on peut figurer un affrontement entre unn équipe ayant 66% (2
chances sur 3) de gagner chaque match (quel que soit le résultat du match précédent et du fait d’être à domicile ou
non). Son nombre de victoire sur 7 matchs suit une loi binomiale de paramètre (7, 0.6). Sa probabilité de victore
correspond à la probabilité de gagner 4 matchs ou plus sur les 7. Dans notre cas, sa probabilité de gagner la rencontre
est alors de 83% !

Projet Big Data et Assurance

5. Simulation du championnat 2017

16

Par ailleurs, on peut aussi rendre compte du déséquilibre très net provoqué par l’avantage du terrain. Prenons le
cas non simulatoire de deux équipes de niveau équivalent ayant chacune 66% de gagner lorsqu’elle sont à domicile
et 33% lorsqu’elle sont à l’extérieur. On s’epargnera le détail des calculs mais en évaluant la somme de deux lois
binomiales, on détermine que l’équipe qui a l’avantage terrain a une probabilité de victoire de 55.6% alors que les
deux équipes ont le même niveau.
5.3.2

Prédiction d’un scénario central

Si l’on retient à chaque fois la victoire de l’équipe qu’on estime la plus probable, le tableau généré est le suivant :

Graphique 19 – Scénario central playoffs 2017
Les % indique la probabilité de victoire de l’équipe gagnante pour chaque rencontre. En rouge est indiqué le score
des rencontres ayant déjà eu lieu (à l’heure de ces lignes). On constate que nous avons à ce jour parfaitement prédit
le résultat de toutes les rencontres jusqu’au finales de conférence. En particulier, notre modélisation est parvenue à
prédire la vicroire de Utah au premier tour, unique équipe à avoir battu une équipe mieux classée qu’elle au premier
tour.
5.3.3

Prédiction de la probabilité de victoire finale

Le tableau ci-dessous donne la probabilité de victoire finale et de place de finaliste de chaque équipe ainsi que la
cote calculée induite afin de pouvoir la comparer à celle proposée par Unibet.

Projet Big Data et Assurance

5. Simulation du championnat 2017

17

Graphique 20 – Prédiction de passage de chaque tour
5.3.4

Pronostic

On rappelle que la marge faite par Unibet est très importante sur ce pari. Cependant, on parviens à identifier 4
équipes sous évaluées pour le fait d’être finaliste (3 pour la victoire finale). Cependant, comme ce type de pronostic
n’est faisable qu’une fois par an, les périodes de retour sont immenses et il est donc déconseillé de parier, sauf si il se
dégage un grand favori, et que ses chances sont sous-estimées. Ce n’est ici pas le cas, puisque GSW se voit créditer
d’une très petite cote par Unibet.

Conclusion
Grâce aux méthodes de scoring, nous avons pu nous confronter à l’univers du pari sportif, et constaté qu’il était
possible de créer un modèle efficace, malgré une profondeur de données relativement modeste. Cependant, il est
relativement difficile de battre nettement les bookmakers dans la mesure où ceux-ci "trichent" par l’introduction
d’une marge sur chaque match. Afin de pouvoire dépasser cette difficulté, il faudrait pouvoir soit par la concurrence,
soit par la participation à un marché de paris (à l’image des marchés financiers) où il serait possible d’acheter ou
vendre des paris (interdit en France), parvenir à faire baisser la marge imposée. On peut néanmoins considérer
que notre modèle est au moins aussi satisfaisant que celui de bookmaker. Il ne reste plus qu’à surveiller la fin des
résultats des playoffs 2017 et se tenir prêt pour 2018.

Projet Big Data et Assurance

5. Simulation du championnat 2017

18

Annexes

Graphique 21 – Liste des types de variables

Projet Big Data et Assurance


Scoring_Public.pdf - page 1/20
 
Scoring_Public.pdf - page 2/20
Scoring_Public.pdf - page 3/20
Scoring_Public.pdf - page 4/20
Scoring_Public.pdf - page 5/20
Scoring_Public.pdf - page 6/20
 




Télécharger le fichier (PDF)


Scoring_Public.pdf (PDF, 2 Mo)

Télécharger
Formats alternatifs: ZIP



Documents similaires


scoring public
dossier final
references2018 1
reglement eponyx university championship lol 1 2
numero 1
statistiques asc

Sur le même sujet..