Coulisses de l’enquête sur le football féminin

Faibles affluences dans les stades, faible augmentation du nombre de pratiquantes en club et une diffusion TV qui laisse encore à désirer. Découvrez les coulisses d’une enquête data sur l’avenir du football féminin français.

LA DÉFINITION DE L’ENQUÊTE

Notre projet d’enquête est né tout d’abord de l’appétence pour le sport qui lie le groupe. Que nous l’ayons expérimenté sur le terrain, dans les tribunes ou depuis notre canapé, le football fait partie de nos quotidiens respectifs. Notre suivi de l’actualité du football féminin ainsi que nos connaissances respectives sur ce sport nous ont donné envie de réaliser une enquête data qui puisse rendre visible ses problématiques.  

En outre, nos échanges ont été complétés et nourris par un travail de recherche à partir de différents canaux d’information, allant du site officiel de la Fédération Française de Football, aux différents articles de presse, ou encore aux réseaux sociaux. Twitter a notamment été une source-clé pour répertorier les discours de représentant.es de la fédération, de clubs et de joueuses*. 

Afin d’obtenir une vue complète et précise de notre sujet, nous avons tenté d’identifier toutes les données utiles à notre enquête. Pour ce faire, nous avons étudié quels étaient les indicateurs qui déterminent la bonne santé du football féminin. 

En premier lieu, nous nous sommes intéressé·es au nombre de pratiquantes de ce sport au sein de la FFF. Nous avons été contraint·es de faire le distingo entre les “licenciées” et les “pratiquantes” de la FFF pour éviter tout biais d’analyse. En effet, le terme “licenciées” au regard de la FFF correspond à la fois au nombre de pratiquantes du football, c’est-à-dire les personnes qui jouent au football dans le club ; mais aussi au nombre de dirigeant·es, arbitres, de personnel technique, d’ayants droits et de volontaires licencié·es.

En second lieu, nous nous sommes intéressé·es aux différents niveaux d’ affluences dans les stades lors du championnat de D1 Arkema depuis la saison 2015/2016 jusqu’à la saison 2022/2023. En effet, il s’agit du championnat féminin français de football de plus haut niveau, celui qui est donc déterminant dans l’évolution et la place du football féminin en France. 
En troisième lieu, nous nous sommes penché·es sur l’enjeu de la médiatisation de la D1 Arkema, au regard à la fois du montant de ses droits télévisuels mais aussi de sa diffusion à chaque saison depuis 2015 entre les diffuseurs suivants : Eurosport, France Télévisions et Canal+.

LE TRAITEMENT DES DONNÉES

  • La localisation et la collecte de données quantitatives

Une grande partie de nos données a été collectée sur le site d’information dédié aux données sur le football féminin footofeminin.fr 

C’est le cas pour les affluences dans les stades pour le championnat de D1 Arkema. Nous avons créé notre propre jeu de données sur excel à partir des fiches de match répertoriées sur le site. Nous avions besoin de renseigner le stade où se tenait chaque match, le nom de l’équipe à domicile et l’équipe extérieure et le nombre de spectateur·rices.  

Capture d’écran d’un exemple de la base de données sur footofeminin.fr

Pour le nombre de pratiquantes licenciées à la Fédération Française de Football, nous avons collecté nos données sur le site de la FFF, dans leur rubrique dédiée au budget et aux chiffres clés. Nous avons extrait les données statistiques depuis la saison 2015/2016 jusqu’à 2022/2023 soit une étude sur 8 saisons. Ces chiffres de la FFF regroupent toutes les ligues de football féminin en France hexagonale comme dans les DOM-TOM : 

  • Ligue Auvergne-Rhône-Alpes 
  • Ligue Bourgogne-Franche-Comté 
  • Ligue Bretagne 
  • Ligue Centre-Val-de-Loire 
  • Ligue Corse 
  • Ligue d’Occitanie 
  • Ligue de Normandie 
  • Ligue des Hauts-de-France 
  • Ligue des Pays de la Loire 
  • Ligue de Nouvelle-Aquitaine 
  • Ligue de Paris-Île-de-France 
  • Ligue du Grand Est 
  • Ligue Méditerranée 
  • Ligue de Guadeloupe 
  • Ligue de Saint Martin 
  • Ligue Guyane 
  • Ligue Mahoraise 
  • Ligue Martinique 
  • Ligue Réunion 
  • Ligue Saint-Pierre-et-Miquelon 
  • Ligue Wallis-et-Futuna

Capture d’écran d’un exemple de la base de données sur le site officiel de la FFF

  • La localisation et la collecte de données qualitatives

Au-delà des chiffres, notre enquête n’a de sens que si elle est nourrie de témoignages et de terrain. 

C’est pourquoi, nous sommes parti·es en reportage auprès d’un club de football amateur, le Bordeaux Etudiants Club (BEC). Nous avons rencontré plusieurs interlocuteur·rices tel·les que le nouveau président du club, Vincent Gay ; l’entraîneur de la section féminine, Mathis Duranry Soubiran ; le directeur technique du club, Alexander Prieto et deux futures éducatries, Mylène et Lucie. 

Nous avons également interviewé Julie Thibaud, joueuse des Girondines et sélectionnée en équipe de France. 

Au niveau de la FFF, sans grande surprise, nous n’avons malheureusement pas pu obtenir d’interview avec un·e représentant·e ou membre de la commission du football féminin de haut niveau, actuellement dirigée par Jean-Michel Aulas. Nous avions tenté de contacter les responsables presse que sont Laura Goutry et Raphaël Raymond, ainsi que l’ex-directrice du football féminin et de la féminisation à la FFF, Frédérique Jossinet. 

  • La vérification des données

Une fois que chaque stade était renseigné, nous devions opérer un travail de vérification de leur capacité en considérant à la fois les places assises et les places disponibles debout. Pour ce faire, nous avons effectué un ensemble de recherches en ligne, de manière à croiser des sources variées. Si nous retrouvions le même chiffre dans au moins trois sites fiables différents, nous considérions que l’information était vérifiée et donc exploitable. Nous avons essentiellement utilisé le site officiel du stade, du club rattaché au stade, de la ville hôte, ou encore la page wikipédia dédiée au stade.

Dans le cas contraire, nous devions procéder à une vérification auprès de la source. Nous avons donc appelé chaque club pour procéder à une vérification. Pour cela, nous nous sommes rapproché·es des attaché·es de presse en se référant aux journalistes syndiqué·es de l’Union Syndicale des Journalistes Sportifs Français (UJSF). Le principe est que chaque club possède un·e journaliste local·e syndiqué·e 

Nous avons été confronté·es à de réelles difficultés pour obtenir l’information aussi basique que la capacité maximale d’un stade. Sur une dizaine d’appels, cinq clubs et mairies n’ont pas été en mesure de nous répondre. 

Lorsque nous n’avions pas de réponse, nous nous sommes basé·es sur l’affluence maximale pour déterminer un chiffre qui servira à notre analyse. 

Pour les autres données présentes dans nos différents jeux, nous les avons faites vérifier auprès d’un expert en statistiques sur le football féminin, le journaliste et commentateur sportif de la D1 Arkema, Daniel Marques. C’est lui qui a notamment entretenu la base de données du site d’information footofeminin.fr.

  • Le nettoyage des données

Une fois nos données collectées et vérifiées, nous les avons importées ou saisies dans un fichier excel. 

Ensuite, nous avons procédé à un nettoyage de ces dernières sous Excel. C’est une étape longue et fastidieuse mais qui est essentielle avant de pouvoir les exploiter dans le cadre de notre enquête. En effet, la saisie manuelle de données peut introduire des erreurs qui seront problématiques au moment de l’exploitation. 

A quatre mains, nous avons supprimé certains caractères liés à l’importation automatique de nos données qui peuvent bloquer la génération de nos tableaux croisés dynamiques.

Nous avons aussi relevé différents types d’erreurs, bien souvent introduites au cours de la collecte de données ou pendant leur saisie. On a tout d’abord identifié les “valeurs aberrantes” c’est-à-dire celles qui n’avaient pas la même logique que l’ensemble des données du jeu. 

Nous avons aussi uniformisé les noms des différents stades qui ont des appellations qui, en fonction des bases de données évoluent. Certains stades ont aussi vu leur nom évoluer : par exemple le “Groupama Training Center” à Lyon s’appelle depuis 2021 “Stade Gérard Houiller”. Nous avons fait le choix de conserver le premier nom pour notre base de données. 

Enfin, nous avons confirmé que notre nettoyage de données était optimal en utilisant les filtres de données disponibles dans Excel. Cet outil est utile pour l’étape de l’édition des données lorsque cela est nécessaire. Il permet notamment de repérer d’éventuels doublons dans la base de données qui peuvent influencer les analyses statistiques (réaliser des sommes ou encore des moyennes)

L’ANALYSE DES DONNÉES

Une fois que nos données ont été nettoyées, transformées et modélisées, nous devions passer à l’étape de l’analyse. L’objectif est de se baser sur des données à la fois du passé (les saisons de 2015 à 2022 en l’occurrence) et les données du présent (la saison 2022-2023 dans notre cas), afin de faire le constat de tendances qui pourront être déterminantes pour le futur (2023 et après). 

Pour démarrer notre analyse, nous avons rapproché les jeux de données pour créer des corrélations et voir si celles-ci sont peu significatives ou très significatives. Pour ce faire, nous avons travaillé à partir de tableaux croisés dynamiques pour révéler des tendances.  

Ainsi, nous avons déterminé une corrélation importante entre le niveau de diffusion télévisuelle des matchs de la D1 ARKEMA entre 2015 et 2023 et le niveau d’affluence dans les stades pour cette même division, sur la même période. 

De la même manière, nous avons mis en relation des données présentes dans un seul et même jeu de données. Ce fut le cas notamment pour des données textuelles telles que les différents stades dans lesquels se sont joués les matchs de la D1 Arkema, pour voir une évolution de leurs déplacements avant, pendant et après la coupe du monde de 2019. 

Globalement, notre analyse est restée descriptive puisque nous avons travaillé uniquement à partir de données quantitatives numériques. Cependant, cette analyse nous a permis de faire des hypothèses sur le futur à partir des tendances actuelles. Par ailleurs, notre sujet pourrait faire l’objet d’une enquête de plus grande ampleur, tant les bases de données sont volumineuses et complexes. 

Au cours de notre analyse, nous n’avons pas été confronté.es à la nécessité de collecter davantage de données.

LA PRÉSENTATION DES DONNÉES

La dernière étape de notre enquête consiste à présenter et rendre visible l’ensemble de nos données. L’enjeu pour ce type d’enquête journalistique est d’articuler un récit qui allie des analyses statistiques à des témoignages. Nous avons généré des visualisations sous la forme de diagrammes et de graphiques pour faciliter la compréhension de notre enquête. 

Une enquête de datajournalisme, c’est aussi faire des choix. S’agissant du football féminin, nous avons fait le choix de nous concentrer uniquement sur des données qui concernaient les sections féminines et ne jamais les mettre en relation avec les données des sections masculines.

En effet, et cela nous a été confirmé par nos interlocuteur·rices, nous ne pouvons réellement mettre en comparaison le système économique et médiatique du football masculin avec celui du football féminin. Les écarts statistiques sont tellement importants que nous nous retrouverions à effectuer une analyse sur des bases superficielles. 
Nous avons également fait le choix de ne pas présenter certaines données. Nous avions un jeu de données complet et exploitable sur les affluences de l’équipe de France sur la même période que celles de la D1 Arkema. Mais nous nous sommes rendu·es compte que le rapprochement de ces deux jeux de données n’était pas pertinent.

NOTRE BASE DE DONNÉES

Afin de rendre disponible aux lecteur·rices de notre enquête et de donner la possibilité de la mettre à jour, l’entretenir, la compléter, l’améliorer, nous rendons disponible nos différents jeux de données créés par nos soins pour réaliser notre enquête :

Jeux de données 

NOS DONNÉES SOURCES

Articles de presse

Sites d’information

Twitter

Communiqués et conférences de presse

Vincent GRILLON @VincentGrlln_

Emma GUILLAUME @EmmaGpr

Rémi PAQUELET @rpaquelet1

Arthur PICARD @_arthurp_

Justine ROY @justiineroy

Mathis SLIMANO @mslimano1