library(tidyverse)

## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --

## v ggplot2 3.3.5     v purrr   0.3.4
## v tibble  3.1.5     v dplyr   1.0.7
## v tidyr   1.1.4     v stringr 1.4.0
## v readr   2.0.2     v forcats 0.5.1

## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag()    masks stats::lag()

library(ggplot2)
library(readxl)

Notes

Le travail est réalisé sur la base d’un scrapping des données de l’annuaire de l’INP.

Le fichier a été nettoyé :

Les élèves internationaux n’ont pas été conservés
Suppression de doublons (femmes apparaissant sous leur nom de jeune fille puis sous leur nom d’épouse)
Le sexe a été ajouté manuellement (vérification par recherche soit sur l’annuaire, soit sur un moteur de recherche en cas de doute)
Les spécialités ont été harmonisées
Diverses coquilles et erreurs ont été corrigées (nom des promo)

Nombre de personne par spécialités

data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
  count(Spécialité, name= "Nombre") %>%
  ggplot( aes(x=Spécialité, y=Nombre)) +
  geom_bar(stat = "identity", width = 0.5, fill = "azure3")

Nombre de femmes et d’hommes toutes spécialités confondues

data <- read_excel(path = "annuaireINP_complet.xls")
data %>% 
  count(Sexe, name= "Nombre") %>%
  ggplot(aes(x=Sexe, y=Nombre)) +
  geom_bar(stat = "identity", width = 0.5, fill = "azure3")

Répartition femmes/hommes par spécialité

 ggplot(data,aes(as.factor(Spécialité), fill=as.factor(Sexe)))+
        geom_bar(position = "dodge") +
        labs(
          x = "Spécialité",
          y = "Nombre",
          colour = "Sexe"
        ) +
        scale_fill_manual(values=c('#BCCC9A','#C37B89')) +
        theme_minimal()

Evolution de la répartition femmes/hommes dans le temps

promo <- read_excel(path = "annuaireINP_complet.xls")
promo %>%
  group_by(Année) %>% 
  count(Sexe, name = "Nombre") %>% 
  ggplot(aes(x = Année, y = Nombre, color = Sexe)) +
    geom_line() +
    scale_color_manual(values=c('#BCCC9A','#C37B89')) +
    theme_minimal()

Répartition par spécialité

Archéologie

data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
  filter(Spécialité == "Archéologie") %>% 
  count(Sexe, name = "Nombre")

Autre carrière

data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
  filter(Spécialité == "Autre carrière") %>% 
  count(Sexe, name = "Nombre")

MHI

data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
  filter(Spécialité == "MHI") %>% 
  count(Sexe, name = "Nombre")

Musées

data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
  filter(Spécialité == "Musées") %>% 
  count(Sexe, name = "Nombre")

PSTN

data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
  filter(Spécialité == "PSTN") %>% 
  count(Sexe, name = "Nombre")

Evolution dans le temps et par spécialité

data <- read_excel(path = "annuaireINP_complet.xls")
facettes <- data %>%
  group_by(Spécialité, Année) %>% 
  count(Sexe)

facettes

ggplot(data = facettes, mapping = aes(x = Année, y = n, color = Sexe)) +
  geom_line() +
  facet_wrap(facets =  vars(Spécialité)) +
  scale_color_manual(values=c('#BCCC9A','#C37B89')) +
  labs(
          x = "Année",
          y = "Nombre",
          colour = "Sexe"
        ) +
  theme_light()

Analyse données INP

Notes

Nombre de personne par spécialités

Nombre de femmes et d’hommes toutes spécialités confondues

Répartition femmes/hommes par spécialité

Evolution de la répartition femmes/hommes dans le temps

Répartition par spécialité

Archéologie

Archives

Autre carrière

MHI

Musées

PSTN

Evolution dans le temps et par spécialité