Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Para rodar o modelo são necessários alguns passos de preparação de dados, sucedidos pelo modelo em si e um processo para gerar as bases que são utilizadas no PowerBI.

...

Merge entre as tabelas
Workspace/people-analytics-absenteismo/01__tratamento_inicial/absenteismo/01__covariaveis_cadastroMetas_teste_estatístico/df_testes_estatisticos.py

Entrada:

...

murabei.absenteismo_database__wide2
absenteimo_prep.sap__informacoes_cadastrais

Saída:

absenteimo_prep.

...

metas_teste_estatistico__

...

modelo_

...

Nesse notebook são tratadas as bases de cadastro, o objetivo principal é remover a duplicidade dos dados. Esses casos são poucos e parecem ocorrer na transição de posição dos colaboradores em um determinado mês, a exclusão da duplicidade é dada por uma regra simples de considerar a 1a entrada na base como correta.

Fora isso são feitos alguns tratamentos para normalização da base e o calculo do tempo desde o último aumento. Como resultado temos a tabela absenteimo_prep.sap__informacoes_cadastrais com a seguinte composição:

Tratamento das variáveis de absenteísmo

Workspace/people-analytics-absenteismo/01__tratamento_inicial/absenteismo/02__absenteísmo.py

Entrada:

recursos_humanos.zitrhr145

Saída:

absenteimo_prep.sap__absenteismo_db

Faz um tratamento simples das variáveis e passa para o tipo date time a coluna de mês/ano que está no formato numérico YYYYMM. Esse notebook resulta na tabela absenteimo_prep.sap__absenteismo_db, que apresenta os seguintes campos:metas

Primeiramente é feito o merge entre as tabelas de entrada, através das chaves time e modeling_unit_id coincidentes nas duas. Assim, obtem-se para cada colaborador no mês de referência suas informações de absenteísmo, horas extras bem como as informações de local de trabalho e divisão a qual pertence.

Tratamento e criação de algumas variáveis de interesse

Workspace/people-analytics-absenteismo/01__tratamento_inicial/Metas_teste_estatístico/data_prep_testes_estatisticos.py

Entrada:

absenteimo_prep.metas_teste_estatistico__modelo_metas

Saída:

absenteimo_prep.metas_teste_estatistico__prepared

Faz um tratamento simples das variáveis e também a criação da variável de interesse grupo_divisao. Consta dos seguintes passos:

  1. Filtro do ramo de atividade 4:
    Filtra-se a coluna descricao_atividade4 para trazer apenas os valores: OPERACIONAL, ADMINISTRATIVO e TECNICO

  2. Filtro de colaboradores que possuem horas previstas maior que 0:
    Filtra-se a coluna hrs_prev para trazer apenas os colaboradores que naquele mês de referência possuem horas previstas maior que 0, evitando-se assim de computar como absenteísta colaboradores que não batem ponto, que estejam de férias (e portanto sem horas previstas) entre outros casos similares.

  3. Criação das variáveis de interesse de absenteísmo e horas extras por horas previstas:

    • faltas_injust-hrs_prev = divisão das colunas faltas_injust/hrs_prev

    • falta_abon-hrs_prev = divisão das colunas falta_abon/hrs_prev

    • faltas_just-hrs_prev = divisão das colunas faltas_just/hrs_prev

    • faltas_legais-hrs_prev = divisão das colunas faltas_legais/hrs_prev

    • atestados-hrs_prev = divisão das colunas atestados/hrs_prev

    • afastamentos-hrs_prev = divisão das colunas afastamentos/hrs_prev

    • faltas_sem_afast-hrs_prev = divisão das colunas faltas_sem_afast/hrs_prev

    • total_horas_extras-hrs_prev = divisão das colunas total_horas_extras/hrs_prev

    • he_folgas-hrs_prev = divisão das colunas he_folgas/hrs_prev

  4. Ajuste e tratamento da variável de ‘local físico':

    A variável de local físico continha valores que traziam um código numérico seguido do local propriamente dito, como por exemplo 0006 - FÁB METAIS SP CML. Tratou-se dessa variável para retirar o código numérico e o restante fosse transferido para uma coluna nova chamada divisao.

    Assim, no exemplo 0006 - FÁB METAIS SP CML, o código 0006 era jogado fora e ‘FÁB METAIS SP CML’ era transferido para essa nova coluna 'divisão’.

  5. Criação da coluna grupo_divisao:

    A partir dos valores da coluna divisao cria-se a hierarquia acima, o grupo_divisao. Os valores usados foram:

    • HYDRA ARACAJU → Louças

    • FÁB LOUÇAS JUNDIAÍ I → Louças

    • FÁB LOUÇAS RECIFE → Louças

    • FÁB METAIS SP INDL → Metais

    • FÁB METAIS JUNDIAÍ → Metais

    • FÁB AGUDOS → Madeira

    • FÁB LOUÇAS QUEIMADOS → Louças

    • FÁB LOUÇAS PARAÍBA → Louças

    • FÁB ITAPETININGA → Madeira

    • FÁB UBERABA → Madeira

    • FÁB METAIS SP CML → Metais

    • FÁB TAQUARI → Madeira

    • FL UBERABA → Duraflora

    • FL AGUDOS → Duraflora

    • FL ITAPETININGA → Duraflora

    • FL LENÇÓIS PAULISTA → Duraflora

    • FL ESTRELA DO SUL → Madeira

    • FÁB METAIS JACAREÍ → Metais

    • FÁB LOUÇAS SUL → Louças

    • FL BOTUCATU → Duraflora

    • FÁB HYDRA SÃO PAULO → Louças

    • CD TUBARAO → Outros

    • HYDRA TUBARÃO → Louças

    • FÁB LOUÇAS JUNDIAÍ → Louças

    • FÁB LOUÇAS JUNDIAÍ II → Louças

    • FÁB BOTUCATU → Madeira

    • FL PIRATININGA → Madeira

    • FÁB METAIS SP → Metais

    • CD RECIFE → Madeira

    • FL TAQUARI → Duraflora

    • CD BETIM → Outros

      Os grupos_divisao resultants foram: Metais, Louças, Duraflora, Madeira e Outros.

      Esses tratamentos e a criação dessas novas colunas foram colocados na tabela absenteimo_prep.metas_teste_estatistico__prepared, sendo esta a tabela a ser usada no modelo propriamente dito.

Criação das variáveis de atraso de absenteísmo para verificar recorrência

...