...
absenteimo_prep.df__test__geral_grupo_divisao
absenteimo_prep.df__test__grupo_divisao_divisao
absenteimo_prep.df__test__divisao_centro_custo
Ao final, todas as saídas serão unificadas em uma única tabela a ser usada no dashboard.
Nesse passo são criadas as variáveis de atraso para fazer os cálculos de recorrência colocando os dados no formato long. Como saída é criada a tabela absenteimo_prep.propensao_absenteismo__absenteismo_lags
com o seguinte formato:Todas as três etapas são essencialmente a mesma, diferindo entre si apenas em quais das colunas serão rodados os testes. No primeiro considera-se como hierarquia superior a Dexco como um todo e como hierarquia inferior a coluna grupo_divisao
, esta é então hierarquia superior na segunda etapa sendo divisao
a hierarquia inferior, finalmente na terceira etapa divisao
é a hierarquia superior e centro de custo
a herarquia inferior.
As etapas interna do modelo são:
Seleção de uma janela de 6 meses:
A colunatime
é varrida em cada iteração do modelo para uma seleção de uma janela de seis meses. A cada interação desloca-se um mês para a frente, e então o modelo é rodado novamente, até ter varrido todo o intervalo de meses disponíveis na base. Assim,na primeira interação, constam-se os meses de janeiro até junho
na segunda interação, constam-se os meses de fevereiro até julho
na terceira interação, constam-se os meses de março até agosto
e assim por diante.
Interação entre os valores da herarquia superior e da hierarquia inferior
Criação de novas variáveis:
horas_variavel_superior: soma das horas de absenteísmo na hierarquia superior
horas_esperadas_superior: soma das horas previstas na hierarquia superior
proporcao_sup: divisão das colunashoras_variavel_superior/horas_esperadas_superior
horas_variavel_inferior: soma das horas de absenteísmo na hierarquia inferior
horas_esperadas_inferior: soma das horas previstas na hierarquia inferior
proporcao_inf: divisão das colunashoras_variavel_inferior/horas_esperadas_inferior
As variáveis do modelo:
O modelo em si consiste em uma analogia com o jogo de uma moeda: lança-se uma moeda n vezes e pergunta-se “a moeda é viciada?”.
A analogia consiste em tratar como um lance que deu “cara” cada vez que se registrar um colaborador que naquele mês de referência tenha tido mais faltas que o proporcional registrado na hierarquia superior, ou seja que a variávelproporcao_sup
. Registra-se como “coroa” o colaborador que tenha faltas abaixo desse limite:heads
→métrica de absenteísmo
>proporcao_sup
tails
→métrica de absenteísmo
<proporcao_sup
métrica de absenteísmo
são as métricasfltas_sem_afast
,faltas_abon
etc
A proporçãoheads
/heads + tails
é a proporção de caras em relação ao total de vezes que essa ‘moeda’ foi lançada. E esse valor será usado para o teste estatístico tendo a hierarquia superior como moeda de referência.
Após isso, verifica-se a quantidade de ‘caras’ e ‘coroas’ na hierarquia inferior e verifica-se a proporçãoheads_inferior
/ heads_inferior + tails_inferior
e obtem-se assim a proporção de ‘caras’ e ‘coroas’ dessa ‘moeda’ na hierarquia inferior. Esse valor será usado para se testar a ‘moeda’ lançada na hierarquia inferior contra a ‘moeda’ lançada na superior e responder à questão proposta acima.
O teste usado é um teste Z entre essas proporções.
time [timestamp]: Data de referência para a variável.
geoarea_id [string]: Divisão associada ao dado.
modeling_unit_id [bigint]: Identitificação do colaborador.
variable [string]: Variável referente ao valor.
banco_horas_credito: Total de banco de horas em crédito.
banco_horas_debito: Total de banco de horas em débto.
banco_horas_mes: Total do banco de horas do mês.
faltas_injust: Horas em faltas injustificadas.
faltas_just: Horas em faltas justificadas.
hrs_prev: Horas previstas.
total_horas_extras: Total de horas extra feitas.
transformation [string]: A transformação que foi aplicada na variável, valores possíveis: [
cum__3: Acumulado dos últimos 3 meses.
cum__6: Acumulado dos últimos 6 meses.
lag__-1: Valor correspondente ao próximo mês (saída do modelo).
lag__0: Valor para o mês atual.
lag__1: Valor para o mês anterior.
lag__2: Valor para 2 meses atrás.
lag__3: Valor para 3 meses atrás.
value [double]: Valor correspondente para time/geoarea_id/modeling_unit_id/variable/transformation.
...