Avec " Actualité et Propos de presse" , l’information, c’est au quotidien..., la “Lettre” est bimensuelle...
Accueil du site > Thèmes > L’Union européenne et la zone euro> Image socio-économique de la zone euro

L’Union européenne et la zone euro

Image socio-économique de la zone euro

Par la méthode d’analyse en composantes principales

juin 2013


Les débats actuels sur l’état et le devenir de la zone euro donnent lieu à des échanges d’arguments comparant les chiffres du chômage, du seuil de pauvreté, du déficit public, de la dette, des taux d’emprunt à dix ans, du coût manufacturier, des charges sociales, de l’imposition, etc., sans tenir compte de la corrélation existant entre ces données.

En effet, elles disent souvent la même chose sans contribuer, comme on pourrait le croire vraiment, toutes à l’information, et sans que les éléments constitutifs d’une image [1] des pays européens puissent s’en dégager.

Introduction

L’objectif de cette étude est de parvenir à construire une image compréhensible de la zone euro, malgré la complexité et le nombre de variables socio-économiques, fortement corrélées, intervenant dans l’analyse. Pour cela, il est nécessaire de remplacer ces variables par 2 nouvelles variables « synthétiques », tout en minimisant la perte d’information initiale.

L’article présente brièvement la méthode « d‘analyse en composantes principales », méthode qui est ensuite utilisée dans l’analyse des variables, puis dans l’élaboration d’une représentation plane de la zone euro. Cette « image », qui résulte d’une synthèse de 15 variables socio-économiques, permet de situer les pays les uns par rapports aux autres. A partir de là, on peut mettre en évidence leurs proximités ou leurs distances relatives, et enfin visualiser une classification (terme anglais clustering) selon des critères de proximité.

Liste des pays et des variables
(Cliquer pour agrandir)

PDF - 48.8 ko

Pour la suite, les notations utilisées pour les pays sont celles d’Eurostat. Les 15 variables choisies sont celles numérotées de 1 à 15 et explicitées. La plupart d’entre elles étaient disponibles et actualisées fin 2012 ou fin mars 2013.

Tableau des données
(Cliquer pour agrandir)

PDF - 44.7 ko

Certains lecteurs peuvent être intéressés par le développement de la méthode. C’est pourquoi, nous avons tenu à en expliquer quelques principes de base et à en détailler l’application à l’analyse socio-économique de la zone euro dans les paragraphes suivants (en italique).

Pour ceux qui préfèrent aller directement au résultat, c’est-à-dire à l’image socio-économique de la zone euro, rendez-vous au paragraphe « Image socio-économique des pays ».

Principe de l’Analyse en Composantes Principales (ACP)

Le tableau ci-dessus, qui décrit n individus (ici 17 pays) à l’aide de p variables (15 variables socio-économiques), définit un nuage de 17 points dans un espace de dimension 15. Dans cet espace, deux pays sont d’autant plus proches l’un de l’autre s’ils présentent des valeurs peu différentes sur les 15 variables. La distance entre deux points est donc une mesure de la dissemblance entre les pays concernés. S’il était possible de voir dans un espace de dimension 15, l’analyste pourrait distinguer des groupes de pays similaires et analyser les proximités et les écarts entre ces groupes.

Pour répondre à ce besoin de visualisation, l’ACP réalise une projection du nuage de points dans un espace de dimension 2 (un plan) qui minimise la déformation du nuage, c’est-à-dire la perte d’information. Dans l’exemple traité, la représentation plane rapporte 64,25% de l’information contenue dans le tableau défini par les 15 variables. Ce plan est déterminé par deux axes orthogonaux qui représentent les deux premières directions principales d’allongement du nuage.

Comment peut-on récupérer 64,25% de l’information en passant de 15 à 2 (les 2 axes mentionnés ci-dessus) variables ? En fait, il arrive fréquemment que plusieurs variables traduisent un même phénomène, ces variables mesurant alors le phénomène sous des angles différents. C’est par exemple le cas du « chômage » et du « risque de pauvreté » qui sont fortement corrélées. L’information apportée par cette deuxième variable est déjà en grande partie contenue dans la première. Lorsque plusieurs variables sont corrélées, il est alors possible de les remplacer par une variable "synthétique" qui représente le phénomène sous-jacent mesuré par ces variables. Il y a évidemment une perte d’information qui est cependant largement compensée par une meilleure lisibilité de l’information.

Voila comment on passe de 15 variables socio-économiques à 2 variables synthétiques qui rendent compte de 64,25% de l’information contenue dans le tableau initial. Ces deux variables permettent de définir un plan dans l’espace à 15 dimensions sur lequel on projette le nuage de points, ce qui permet d’obtenir une représentation plane des pays.

L’ACP structure et ordonne l’information

La première variable synthétique définie par l’ACP correspond à la direction principale d’allongement du nuage, direction dans laquelle la quantité d’information [2] est maximale car les pays y sont le plus dispersés [3]. Dans le cas présent, cette première composante principale rend compte de 38,95% de l’information. La deuxième variable synthétique mise en évidence correspond à la deuxième direction d’allongement du nuage, orthogonale à la première. Elle représente ici 25,3% de l’information, ce qui permet au plan 1x2 de rendre compte de 64,25% de l’information. Il serait possible de définir un troisième, puis un quatrième axe (le plan 3x4 représente 25% de l’information de départ), et ainsi de suite jusqu’à 15 axes. L’ACP a ainsi remplacé 15 variables socio-économiques présentant des corrélations (et donc des redondances) et a priori d’égales importances par 15 variables synthétiques qui sont décorrélées (il n’y a pas de redondance en terme d’information) et dont l’importance va en décroissant (4,9% pour la cinquième). Dans le cas présent, nous nous sommes limités aux deux premières composantes principales.

L’ACP est principalement utilisée en recherche médicale (épidémiologie, essais cliniques), en génétique et anthropologie (groupes de population possédant des similarité de génomes), en sciences économiques, en intelligence économique…

Analyse en composantes principales

Dans l’analyse réalisée, les variables population (1), estimation de la population (9) et géographie (10) sont considérées comme des variables supplémentaires, c’est-à-dire qu’elles ne participent pas à la construction des plans de projection. Par contre, ces variables sont projetées sur les plans définis par les autres variables pour voir comment elles se situent par rapport aux autres (représentées sous forme de vecteurs en couleurs sur la figure de représentation de l’ensemble des variables).

Représentation des variables

La figure ci dessous représente les projections des 15 variables sur le plan 1x2 défini par les deux premières composantes principales. Cette analyse qui se limite au plan 1x2 (64% de l’information) pourrait être complétée si nécessaire en considérant par exemple le plan 3x4 (25%) ou 2x3.

Représentation des variables
(Cliquer pour agrandir)

PDF - 32.3 ko

Une variable est bien représentée dans le plan 1x2 lorsque l’extrémité de la projection du vecteur est proche du cercle de rayon 1. A l’inverse une variable est mal représentée si le sommet du vecteur s’éloigne de la circonférence.

Ainsi sont bien représentées [4] dans le plan 1x2 les variables (15) (risque de pauvreté), (6) (taux de chômage), (11) (taux d’emprunt à 10 ans), (3) (dette), (14) (prélèvements sociaux), (12) (coût moyen horaire d’une personne dans l’industrie manufacturière), et (5) (inflation). Sont moins bien représentées, dans l’ordre décroissant, les variables (7) (taux de croissance 2013), (2) (déficit public), (8) (taux de fécondité) et (4) (PIB par habitant).

Analyse des variables

La corrélation entre les variables bien représentées peut s’apprécier à partir de l’angle entre les vecteurs (elle se mesure par le cosinus de cet angle). L’analyse des corrélations permet de tirer les conclusions suivantes, qui sont moyennées sur les 17 pays considérés :

  • Axe 1 (axe horizontal)
    En Europe, plus particulièrement dans la zone euro, les trois variables (15) (risque de pauvreté), (6) (chômage) et (11) (taux d’emprunt à 10 ans) sont fortement corrélées entre elles ainsi qu’avec l’axe 1. Il s’ensuit que la signification de l’axe 1 repose en grande partie sur ces variables ainsi que sur la variable (7) (croissance 2013). Cet axe, qui est associé à la 1ère variable synthétique, peut donc s’interpréter comme une opposition entre les pays plus pauvres (à droite) et plus riches (à gauche), ces derniers bénéficiant d’une croissance positive. On constate que les variables (2) (déficit public) et (3) (dette) sont également corrélées positivement avec cet axe.

  • Axe 2 (axe vertical)
    L’axe 2 (2ème variable synthétique) peut s’interpréter comme une opposition entre les pays dans lesquels (14) (prélèvements sociaux) et (12) coût horaire manufacturier sont élevés par rapport à ceux dans lesquels ils sont faibles. On constate que l’inflation est corrélée négativement avec cet axe. Les prélèvements sociaux ont tendance à être plus élevés dans les pays à forte population.

Image socio-économique des pays

Les pays sont projetés sur le plan des composantes principales 1x2. Cela constitue la meilleure représentation possible en deux dimensions de la carte socio-économique de l’Europe des 17, en fonction des 15 variables choisies.

Image socio-économique des pays
(Cliquer pour agrandir)

PDF - 28.1 ko

Cette représentation met en évidence les deux extrémités de l’Europe (zone euro) sur l’axe 1 horizontal (le Luxembourg (LU) du côté des pays plus riches et la Grèce (EL) du côté des pays les plus pauvres) et sur l’axe 2 vertical (en haut la France, la Belgique et les Pays-Bas pour les prélèvements et le coût de la main d’œuvre manufacturière plus élevés, comparés à la Slovaquie et à l’Estonie en bas).

La figure permet d’interpréter les distances entre les pays en termes de similarité sur les variables qui ont contribuées à la formation du plan 1x2 (dont on rappelle qu’il représente au mieux les données du tableau initial). Par exemple la proximité entre ES (Espagne) et PT (Portugal) s’interprète comme une situation socio-économique voisine. Il est ainsi possible de constituer des groupes de pays homogènes.

Clusters ou classification des données

Pour améliorer la représentation cartographique de l’Europe, l’analyse est complétée par une classification automatique dont seuls les résultats sont présentés. La figure fait apparaître 6 clusters regroupés en deux super clusters, que l’on notera pour la simplicité de l’exposé, super clusters Nord et Sud au-delà des notions géographiques.

  • Super cluster Nord (en bleu)
    Il est constitué de deux clusters :
    • le Luxembourg (LU) qui apparaît comme un cas particulier en Europe (outre sa dimension géographique et sa population) : PIB/h égal à 2,7 fois la moyenne européenne, dette, prélèvements sociaux et risque de pauvreté faibles...
    • un cluster composé des autres pays du Nord : A l’intérieur de ce cluster on note une très grande proximité des situations française et belge d’une part, allemande, autrichienne et finlandaise d’autre part (dans un regroupement local DE, AT, NL, FI). La situation NL se rapproche cependant des situations FR et BE. La Finlande (FI) est le pays le plus privilégié de ce cluster.

  • Super cluster Sud (en vert)
    4 clusters sont identifiables :
    • L’Irlande (IE) et la Grèce (EL) constituent chacune un cluster (3 et 4), tant leurs situations sont distinctes des autres pays. La Grèce est le pays le plus isolé sur les axes de la dette et du déficit.
    • le cluster 5 est constitué de la Slovaquie (SK) et de l’Estonie (EE). Ce cluster possède de forte similitude avec le cluster 6 suivant, et se trouve donc rattaché au super cluster Sud, bien que concernant des pays géographiquement situés au Nord.
    • Enfin, le cluster 6 regroupant les pays méditerranéens et la Slovénie. Ces pays sont plus ou moins « tirés » vers la gauche de la figure par les axes (15) (risque de pauvreté), (6) (chômage), (11) (taux d’emprunt à 10 ans), (3) (dette) et (2) (déficit). L’Italie (IT) est le seul pays de ce cluster qui pourrait rejoindre le super cluster des pays du Nord.

Conclusion

Les résultats sont pertinents. Ils confirment l’intérêt de cette étude qui était d’obtenir une image représentative de la zone euro, ayant valeur de diagnostic et de prédiction, à partir de données officielles. Chacun pourra ainsi se faire sa propre opinion sans esprit partisan.

Auteurs : Georges Seguin et Gérard Seguin [5]
Dans le cadre de Club Espace 21

Notes

[1] La représentation la plus naturelle de l’Europe est une carte géographique. Elle permet de représenter les pays selon leur surface géographique (exprimée en km2) et de distinguer visuellement les pays du Nord de ceux du Sud. Elle constitue toutefois un support extrêmement limité pour illustrer l’exposé d’une analyse sociale et économique.

[2] En mathématiques, on parle d’inertie ou de variance

[3] Contrairement aux directions moins significatives ou le nuage de points est resserré car tous les pays se ressemblent

[4] Le plan 1x2 rend bien compte de l’information portée par ces variables

[5] Respectivement : Docteurs ès sciences physiques et en mathématiques

Retour
Contact / Plan du site / Mentions légales    © P.RO COM - 2012