library(tidyverse)
## -- Attaching packages --------------------------------------- tidyverse 1.3.1 --
## v ggplot2 3.3.5 v purrr 0.3.4
## v tibble 3.1.5 v dplyr 1.0.7
## v tidyr 1.1.4 v stringr 1.4.0
## v readr 2.0.2 v forcats 0.5.1
## -- Conflicts ------------------------------------------ tidyverse_conflicts() --
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(ggplot2)
library(readxl)
Le travail est réalisé sur la base d’un scrapping des données de l’annuaire de l’INP.
Le fichier a été nettoyé :
Les élèves internationaux n’ont pas été conservés
Suppression de doublons (femmes apparaissant sous leur nom de jeune fille puis sous leur nom d’épouse)
Le sexe a été ajouté manuellement (vérification par recherche soit sur l’annuaire, soit sur un moteur de recherche en cas de doute)
Les spécialités ont été harmonisées
Diverses coquilles et erreurs ont été corrigées (nom des promo)
data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
count(Spécialité, name= "Nombre") %>%
ggplot( aes(x=Spécialité, y=Nombre)) +
geom_bar(stat = "identity", width = 0.5, fill = "azure3")
data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
count(Sexe, name= "Nombre") %>%
ggplot(aes(x=Sexe, y=Nombre)) +
geom_bar(stat = "identity", width = 0.5, fill = "azure3")
ggplot(data,aes(as.factor(Spécialité), fill=as.factor(Sexe)))+
geom_bar(position = "dodge") +
labs(
x = "Spécialité",
y = "Nombre",
colour = "Sexe"
) +
scale_fill_manual(values=c('#BCCC9A','#C37B89')) +
theme_minimal()
promo <- read_excel(path = "annuaireINP_complet.xls")
promo %>%
group_by(Année) %>%
count(Sexe, name = "Nombre") %>%
ggplot(aes(x = Année, y = Nombre, color = Sexe)) +
geom_line() +
scale_color_manual(values=c('#BCCC9A','#C37B89')) +
theme_minimal()
data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
filter(Spécialité == "Archéologie") %>%
count(Sexe, name = "Nombre")
data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
filter(Spécialité == "Archives") %>%
count(Sexe, name = "Nombre")
data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
filter(Spécialité == "Autre carrière") %>%
count(Sexe, name = "Nombre")
data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
filter(Spécialité == "MHI") %>%
count(Sexe, name = "Nombre")
data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
filter(Spécialité == "Musées") %>%
count(Sexe, name = "Nombre")
data <- read_excel(path = "annuaireINP_complet.xls")
data %>%
filter(Spécialité == "PSTN") %>%
count(Sexe, name = "Nombre")
data <- read_excel(path = "annuaireINP_complet.xls")
facettes <- data %>%
group_by(Spécialité, Année) %>%
count(Sexe)
facettes
ggplot(data = facettes, mapping = aes(x = Année, y = n, color = Sexe)) +
geom_line() +
facet_wrap(facets = vars(Spécialité)) +
scale_color_manual(values=c('#BCCC9A','#C37B89')) +
labs(
x = "Année",
y = "Nombre",
colour = "Sexe"
) +
theme_light()