People Analytics - Absenteísmo
O objetivo desse projeto é o desenvolvimento de modelos e análises para dados referentes aos colaboradores (People Analytics). Nesse ponto foi elencado como principal problema dentro da Dexco a questão do absenteísmo, entende-lo melhor permitiria sua redução o que apresentaria significantes ganhos para a operacionais.
Fontes de dados
Foram utilizados 3 fontes de dados distintas para a construção do modelo.
Dados de absenteísmo
São dados que trazem as horas previstas e o absenteísmo dos colaboradores aberto em diferentes categorias como: faltas justificadas, faltas injustificadas, atestados e afastamentos. Foram isso ainda apresenta dados de bancos de horas, horas extra etc. As informações podem ser verificadas na tabela recursos_humanos.zitrhr145
.
Dados de cadastrais dos colaboradores
São dados que trazem informações cadastrais dos colaboradores. Aqui podem ser verificadas informações sobre a associação do colaborador na estrutura hierárquica da Dexco como empresa, local de trabalho, supervisor direto entre outras informações de cadastro como sexo, idade, etc… As informações podem ser verificadas na tabela recursos_humanos.zitrhr023
.
Dados de atestados médicos
Foram disponibilizadas dados de absenteísmo por atestados médicos, como correspondem a dados sigilosos a prevalência dos CIDs são demonstrados apenas com identificação de centro de custo. Para sua utilização no modelo foi calculado a prevalência de atestados pelo número de colaboradores no centro de custo. Os dados foram disponibilizados na tabela recursos_humanos.relatorio_absenteismo
.
Modelos que foram construídos
Foram construídos 3 modelos com objetivos distintos no projeto.
Propensão ao absenteísmo do próximo mês
O intuito foi a criação de um modelo que pudesse antever absenteísmos do próximo mês. Para isso foram algumas variáveis:
utilizados dados de recorrência, no qual faltas anteriores indicariam possíveis faltas no futuro.
dados de prevalência do SOC.
informações de atestados no centro de custo.
idade do colaborador.
tempo na Dexco.
tempo no cargo.
se o cargo atual foi o primeiro dentro da Dexco.
Dessa forma os resultados podem indicar colaboradores com alta probabilidade de apresentar absenteísmo no próximo mês permitindo escorar a base de dados. Outro resultado oriundo do modelo é a decomposição dos efeitos, usando essas informações é possível verificar quais elementos são mais ofensores e detratores para o absenteísmo permitindo a criação de ações específicas.
Identificação de outliers entre grupos
Pergunta: “É possível identificar um grupo em que o absenteísmo é estatisticamente diferente (maior ou menor)?”
Para responder essa pergunta foi desenvolvida uma técnica para a identificação de descolamentos de áreas ‘inferiores’ na hierarquia da empresa (por ex: centro de custo) em relação à 'superior' (por ex: fábrica) quanto às métricas de absenteísmo. A ideia é teste estatístico que gere resultados que podem responder à pergunta identificando esses descolamentos como mero acaso ou se estes são estatisticamente significativos, de forma que possamos estabelecer uma série de alertas para as áreas que estão com descolamento frente às demais que podem ser conisderadas “pares”: testam-se as métricas de absenteísmo em centros de custo A, B, C etc de uma determinada unidade de farica X e assim estabelecemos se o absenteísmo nos centros de custo A, B, C etc é maior ou menor, estatisticamente, que o absenteísmo observado na unidade X como um todo; assim podemos estabelecer um alerta caso A (ou B ou C) se desloque em comparação aos seus 'pares' (os outros centros de custo da mesma fábrica).
Os resultados foram disponibilizados na tabela: absenteimo.metas_teste_estatistico__completo
Dashboard da distrição de atestados por calendário social
Foi desenvolvida uma base de dados tratada na qual é possível verificar a prevalência do diagnóstico de determinados CIDs de acordo com o calendário social. Utilizando os dados cruzados é possível identificar se existe algum descolamento de atestados em datas específicos como véspera de feriados, carnaval, etc…
Deploy e arquitetura da solução
Os modelos e ETL foram desenvolvidos utilizando notebooks no databricks e encontram-se versionados no git do projeto. Os pipes foram criados utilizando o workflow do próprio databricks.