Content Comparison

...

absenteimo_prep.df__test__geral_grupo_divisao
absenteimo_prep.df__test__grupo_divisao_divisao
absenteimo_prep.df__test__divisao_centro_custo

Ao final, todas as saídas serão unificadas em uma única tabela a ser usada no dashboard.

Nesse passo são criadas as variáveis de atraso para fazer os cálculos de recorrência colocando os dados no formato long. Como saída é criada a tabela absenteimo_prep.propensao_absenteismo__absenteismo_lags com o seguinte formato:Todas as três etapas são essencialmente a mesma, diferindo entre si apenas em quais das colunas serão rodados os testes. No primeiro considera-se como hierarquia superior a Dexco como um todo e como hierarquia inferior a coluna grupo_divisao, esta é então hierarquia superior na segunda etapa sendo divisao a hierarquia inferior, finalmente na terceira etapa divisao é a hierarquia superior e centro de custo a herarquia inferior.

As etapas interna do modelo são:

Seleção de uma janela de 6 meses:
A coluna time é varrida em cada iteração do modelo para uma seleção de uma janela de seis meses. A cada interação desloca-se um mês para a frente, e então o modelo é rodado novamente, até ter varrido todo o intervalo de meses disponíveis na base. Assim,
- na primeira interação, constam-se os meses de janeiro até junho
- na segunda interação, constam-se os meses de fevereiro até julho
- na terceira interação, constam-se os meses de março até agosto
  e assim por diante.
Interação entre os valores da herarquia superior e da hierarquia inferior
Criação de novas variáveis:

horas_variavel_superior: soma das horas de absenteísmo na hierarquia superior
horas_esperadas_superior: soma das horas previstas na hierarquia superior
proporcao_sup: divisão das colunas horas_variavel_superior/horas_esperadas_superior

horas_variavel_inferior: soma das horas de absenteísmo na hierarquia inferior
horas_esperadas_inferior: soma das horas previstas na hierarquia inferior
proporcao_inf: divisão das colunas horas_variavel_inferior/horas_esperadas_inferior
As variáveis do modelo:
O modelo em si consiste em uma analogia com o jogo de uma moeda: lança-se uma moeda n vezes e pergunta-se “a moeda é viciada?”.

A analogia consiste em tratar como um lance que deu “cara” cada vez que se registrar um colaborador que naquele mês de referência tenha tido mais faltas que o proporcional registrado na hierarquia superior, ou seja que a variável proporcao_sup. Registra-se como “coroa” o colaborador que tenha faltas abaixo desse limite:
- heads → métrica de absenteísmo > proporcao_sup
- tails → métrica de absenteísmo < proporcao_sup
  
  métrica de absenteísmo são as métricas fltas_sem_afast, faltas_abon etc
  
  A proporção heads / heads + tails é a proporção de caras em relação ao total de vezes que essa ‘moeda’ foi lançada. E esse valor será usado para o teste estatístico tendo a hierarquia superior como moeda de referência.

Após isso, verifica-se a quantidade de ‘caras’ e ‘coroas’ na hierarquia inferior e verifica-se a proporção
heads_inferior / heads_inferior + tails_inferior e obtem-se assim a proporção de ‘caras’ e ‘coroas’ dessa ‘moeda’ na hierarquia inferior. Esse valor será usado para se testar a ‘moeda’ lançada na hierarquia inferior contra a ‘moeda’ lançada na superior e responder à questão proposta acima.

O teste usado é um teste Z entre essas proporções.

time [timestamp]: Data de referência para a variável.
geoarea_id [string]: Divisão associada ao dado.
modeling_unit_id [bigint]: Identitificação do colaborador.
variable [string]: Variável referente ao valor.
- banco_horas_credito: Total de banco de horas em crédito.
- banco_horas_debito: Total de banco de horas em débto.
- banco_horas_mes: Total do banco de horas do mês.
- faltas_injust: Horas em faltas injustificadas.
- faltas_just: Horas em faltas justificadas.
- hrs_prev: Horas previstas.
- total_horas_extras: Total de horas extra feitas.
transformation [string]: A transformação que foi aplicada na variável, valores possíveis: [
- cum__3: Acumulado dos últimos 3 meses.
- cum__6: Acumulado dos últimos 6 meses.
- lag__-1: Valor correspondente ao próximo mês (saída do modelo).
- lag__0: Valor para o mês atual.
- lag__1: Valor para o mês anterior.
- lag__2: Valor para 2 meses atrás.
- lag__3: Valor para 3 meses atrás.
value [double]: Valor correspondente para time/geoarea_id/modeling_unit_id/variable/transformation.

...

Version	Old Version 6	New Version 7
Changes made by	Anonymous	Anonymous
Saved on	Nov 17, 2022	Nov 17, 2022

Versions Compared

Key