Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

absenteimo_prep.df__test__geral_grupo_divisao
absenteimo_prep.df__test__grupo_divisao_divisao
absenteimo_prep.df__test__divisao_centro_custo

Ao final, todas as saídas serão unificadas em uma única tabela a ser usada no dashboard.

Nesse passo são criadas as variáveis de atraso para fazer os cálculos de recorrência colocando os dados no formato long. Como saída é criada a tabela absenteimo_prep.propensao_absenteismo__absenteismo_lags com o seguinte formato:Todas as três etapas são essencialmente a mesma, diferindo entre si apenas em quais das colunas serão rodados os testes. No primeiro considera-se como hierarquia superior a Dexco como um todo e como hierarquia inferior a coluna grupo_divisao, esta é então hierarquia superior na segunda etapa sendo divisao a hierarquia inferior, finalmente na terceira etapa divisao é a hierarquia superior e centro de custo a herarquia inferior.

As etapas interna do modelo são:

  1. Seleção de uma janela de 6 meses:
    A coluna time é varrida em cada iteração do modelo para uma seleção de uma janela de seis meses. A cada interação desloca-se um mês para a frente, e então o modelo é rodado novamente, até ter varrido todo o intervalo de meses disponíveis na base. Assim,

    • na primeira interação, constam-se os meses de janeiro até junho

    • na segunda interação, constam-se os meses de fevereiro até julho

    • na terceira interação, constam-se os meses de março até agosto
      e assim por diante.

  2. Interação entre os valores da herarquia superior e da hierarquia inferior

  3. Criação de novas variáveis:

    horas_variavel_superior: soma das horas de absenteísmo na hierarquia superior
    horas_esperadas_superior: soma das horas previstas na hierarquia superior
    proporcao_sup: divisão das colunas horas_variavel_superior/horas_esperadas_superior

    horas_variavel_inferior: soma das horas de absenteísmo na hierarquia inferior
    horas_esperadas_inferior: soma das horas previstas na hierarquia inferior
    proporcao_inf: divisão das colunas horas_variavel_inferior/horas_esperadas_inferior

  4. As variáveis do modelo:
    O modelo em si consiste em uma analogia com o jogo de uma moeda: lança-se uma moeda n vezes e pergunta-se “a moeda é viciada?”.

    A analogia consiste em tratar como um lance que deu “cara” cada vez que se registrar um colaborador que naquele mês de referência tenha tido mais faltas que o proporcional registrado na hierarquia superior, ou seja que a variável proporcao_sup. Registra-se como “coroa” o colaborador que tenha faltas abaixo desse limite:

    • headsmétrica de absenteísmo > proporcao_sup

    • tailsmétrica de absenteísmo < proporcao_sup

      métrica de absenteísmo são as métricas fltas_sem_afast, faltas_abon etc

      A proporção heads / heads + tails é a proporção de caras em relação ao total de vezes que essa ‘moeda’ foi lançada. E esse valor será usado para o teste estatístico tendo a hierarquia superior como moeda de referência.

Após isso, verifica-se a quantidade de ‘caras’ e ‘coroas’ na hierarquia inferior e verifica-se a proporção
heads_inferior / heads_inferior + tails_inferior e obtem-se assim a proporção de ‘caras’ e ‘coroas’ dessa ‘moeda’ na hierarquia inferior. Esse valor será usado para se testar a ‘moeda’ lançada na hierarquia inferior contra a ‘moeda’ lançada na superior e responder à questão proposta acima.

O teste usado é um teste Z entre essas proporções.

  • time [timestamp]: Data de referência para a variável.

  • geoarea_id [string]: Divisão associada ao dado.

  • modeling_unit_id [bigint]: Identitificação do colaborador.

  • variable [string]: Variável referente ao valor.

    • banco_horas_credito: Total de banco de horas em crédito.

    • banco_horas_debito: Total de banco de horas em débto.

    • banco_horas_mes: Total do banco de horas do mês.

    • faltas_injust: Horas em faltas injustificadas.

    • faltas_just: Horas em faltas justificadas.

    • hrs_prev: Horas previstas.

    • total_horas_extras: Total de horas extra feitas.

  • transformation [string]: A transformação que foi aplicada na variável, valores possíveis: [

    • cum__3: Acumulado dos últimos 3 meses.

    • cum__6: Acumulado dos últimos 6 meses.

    • lag__-1: Valor correspondente ao próximo mês (saída do modelo).

    • lag__0: Valor para o mês atual.

    • lag__1: Valor para o mês anterior.

    • lag__2: Valor para 2 meses atrás.

    • lag__3: Valor para 3 meses atrás.

  • value [double]: Valor correspondente para time/geoarea_id/modeling_unit_id/variable/transformation.

...