...
Para rodar o modelo são necessários alguns passos de preparação de dados, sucedidos pelo modelo em si e um processo para gerar as bases que são utilizadas no PowerBI.
...
Merge entre as tabelasWorkspace/people-analytics-absenteismo/01__tratamento_inicial/absenteismo/01__covariaveis_cadastroMetas_teste_estatístico/df_testes_estatisticos.py
Entrada:
...
murabei.absenteismo_database__wide2
absenteimo_prep.sap__informacoes_cadastrais
Saída:
absenteimo_prep.
...
metas_teste_estatistico__
...
modelo_
...
Nesse notebook são tratadas as bases de cadastro, o objetivo principal é remover a duplicidade dos dados. Esses casos são poucos e parecem ocorrer na transição de posição dos colaboradores em um determinado mês, a exclusão da duplicidade é dada por uma regra simples de considerar a 1a entrada na base como correta.
Fora isso são feitos alguns tratamentos para normalização da base e o calculo do tempo desde o último aumento. Como resultado temos a tabela absenteimo_prep.sap__informacoes_cadastrais
com a seguinte composição:
Tratamento das variáveis de absenteísmo
Workspace/people-analytics-absenteismo/01__tratamento_inicial/absenteismo/02__absenteísmo.py
Entrada:
recursos_humanos.zitrhr145
Saída:
absenteimo_prep.sap__absenteismo_db
Faz um tratamento simples das variáveis e passa para o tipo date time a coluna de mês/ano que está no formato numérico YYYYMM
. Esse notebook resulta na tabela absenteimo_prep.sap__absenteismo_db
, que apresenta os seguintes campos:metas
Primeiramente é feito o merge entre as tabelas de entrada, através das chaves time
e modeling_unit_id
coincidentes nas duas. Assim, obtem-se para cada colaborador no mês de referência suas informações de absenteísmo, horas extras bem como as informações de local de trabalho e divisão a qual pertence.
Tratamento e criação de algumas variáveis de interesse
Workspace/people-analytics-absenteismo/01__tratamento_inicial/Metas_teste_estatístico/data_prep_testes_estatisticos.py
Entrada:
absenteimo_prep.metas_teste_estatistico__modelo_metas
Saída:
absenteimo_prep.metas_teste_estatistico__prepared
Faz um tratamento simples das variáveis e também a criação da variável de interesse grupo_divisao
. Consta dos seguintes passos:
Filtro do ramo de atividade 4:
Filtra-se a colunadescricao_atividade4
para trazer apenas os valores:OPERACIONAL
,ADMINISTRATIVO
eTECNICO
Filtro de colaboradores que possuem horas previstas maior que 0:
Filtra-se a colunahrs_prev
para trazer apenas os colaboradores que naquele mês de referência possuem horas previstas maior que 0, evitando-se assim de computar como absenteísta colaboradores que não batem ponto, que estejam de férias (e portanto sem horas previstas) entre outros casos similares.Criação das variáveis de interesse de absenteísmo e horas extras por horas previstas:
faltas_injust-hrs_prev = divisão das colunas
faltas_injust/hrs_prev
falta_abon-hrs_prev = divisão das colunas
falta_abon/hrs_prev
faltas_just-hrs_prev = divisão das colunas
faltas_just/hrs_prev
faltas_legais-hrs_prev = divisão das colunas
faltas_legais/hrs_prev
atestados-hrs_prev = divisão das colunas
atestados/hrs_prev
afastamentos-hrs_prev = divisão das colunas
afastamentos/hrs_prev
faltas_sem_afast-hrs_prev = divisão das colunas
faltas_sem_afast/hrs_prev
total_horas_extras-hrs_prev = divisão das colunas
total_horas_extras/hrs_prev
he_folgas-hrs_prev = divisão das colunas
he_folgas/hrs_prev
Ajuste e tratamento da variável de ‘local físico':
A variável de local físico continha valores que traziam um código numérico seguido do local propriamente dito, como por exemplo0006 - FÁB METAIS SP CML
. Tratou-se dessa variável para retirar o código numérico e o restante fosse transferido para uma coluna nova chamadadivisao
.
Assim, no exemplo0006 - FÁB METAIS SP CML
, o código 0006 era jogado fora e ‘FÁB METAIS SP CML’ era transferido para essa nova coluna 'divisão’.Criação da coluna
grupo_divisao
:
A partir dos valores da colunadivisao
cria-se a hierarquia acima, ogrupo_divisao
. Os valores usados foram:HYDRA ARACAJU → Louças
FÁB LOUÇAS JUNDIAÍ I → Louças
FÁB LOUÇAS RECIFE → Louças
FÁB METAIS SP INDL → Metais
FÁB METAIS JUNDIAÍ → Metais
FÁB AGUDOS → Madeira
FÁB LOUÇAS QUEIMADOS → Louças
FÁB LOUÇAS PARAÍBA → Louças
FÁB ITAPETININGA → Madeira
FÁB UBERABA → Madeira
FÁB METAIS SP CML → Metais
FÁB TAQUARI → Madeira
FL UBERABA → Duraflora
FL AGUDOS → Duraflora
FL ITAPETININGA → Duraflora
FL LENÇÓIS PAULISTA → Duraflora
FL ESTRELA DO SUL → Madeira
FÁB METAIS JACAREÍ → Metais
FÁB LOUÇAS SUL → Louças
FL BOTUCATU → Duraflora
FÁB HYDRA SÃO PAULO → Louças
CD TUBARAO → Outros
HYDRA TUBARÃO → Louças
FÁB LOUÇAS JUNDIAÍ → Louças
FÁB LOUÇAS JUNDIAÍ II → Louças
FÁB BOTUCATU → Madeira
FL PIRATININGA → Madeira
FÁB METAIS SP → Metais
CD RECIFE → Madeira
FL TAQUARI → Duraflora
CD BETIM → Outros
Osgrupos_divisao
resultants foram: Metais, Louças, Duraflora, Madeira e Outros.
Esses tratamentos e a criação dessas novas colunas foram colocados na tabelaabsenteimo_prep.metas_teste_estatistico__prepared
, sendo esta a tabela a ser usada no modelo propriamente dito.
Criação das variáveis de atraso de absenteísmo para verificar recorrência
...