Para responder essa pergunta foi desenvolvida O modelo aqui desenvolvido visava uma técnica para a identificação de descolamentos de áreas ‘inferiores’ na hierarquia da empresa (por ex: centro de custo) em relação à sua 'superior' (por ex: fábrica) quanto às diversas métricas de absenteísmo. A ideia é Foi construído um modelo para identificar outliers através de um teste estatístico que gere resultados que podem gerasse como resultado uma métrica que pudesse responder à pergunta questão identificando esses descolamentos como mero acaso ou se estes são estatisticamente significativos, de forma que para estes possamos estabelecer uma série de alertas para as áreas que estão com descolamento frente às demais que podem ser conisderadas “pares”: testam-se .
Tabelas usadas como base
São utilizadas as seguintes tabelas como base nesse workflow:
murabei.absenteismo_database__wide2
Tabela com informações sobre as métricas de absenteísmo em centros de custo A, B, C etc de uma determinada unidade de farica X e assim estabelecemos se o absenteísmo nos centros de custo A, B, C etc é maior ou menor, estatisticamente, que o absenteísmo observado na unidade X como um todo; assim podemos estabelecer um alerta caso A (ou B ou C) se desloque em comparação aos seus 'pares' (os outros centros de custo da mesma fábrica).
Artefatos/Tabelas estáticas
São utilizadas as seguintes tabelas estáticas nesse workflow.
soc__depara_cids
Tabela com o de-para dos CIDs para o agrupamento em termos mais genéricos, a tabela possui os seguintes campos:
cid_descricao [str]: Campo com a descrição completa do CID de acordo com o CID-10 disponibilizado no site do SUS.
cid_id [str]: Identificador do CID descrito.
grupo_cid [str]: Capítulo do CID-10.
descrição_grupo [str]: Descrição do capítulo do CID-10.
grupo_modelo [str]: Agrupamento que será utilizado no modelo.
soc__depara_divisao
Tabela com o de-para das divisões presentes no SOC e na base de absenteísmo e um agrupamento que será utilizada para a criação do modelo aberto por grupo_divisao
.
...
Empresa [str]: Chave disponível nos dados do SOC.
...
Unidade [str]: Chave disponível nos dados do SOC.
...
divisao [str]: Chave disponível nos dados de abesenteísmo.
...
divisao_desc [str]: Chave disponível nos dados de abesenteísmo.
...
, horas previstas e hoas extras. Foram utilizados os seguintes campos:
modeling_unit_id [int64]: matrícula do colaborador
hrs_prev [float64]: horas previstas totais para o colaborador no mês de referência
faltas_injust [float64]: faltas injustificadas, em horas, do colaborador no mês de referência
falta_abon [float64]: faltas abonadas, em horas, do colaborador no mês de referência
faltas_just [float64]: faltas justificadas, em horas, do colaborador no mês de referência
faltas_legais [float64]: faltas legais, em horas, do colaborador no mês de referência
atestados [float64]: faltas com atestados, em horas, do colaborador no mês de referência
afastamentos [float64]: faltas com afastamentos, em horas, do colaborador no mês de referência
faltas_sem_afast [float64]: faltas sem afastamentos, em horas, do colaborador no mês de referência
total_horas_extras [float64]: total de horas extras realizadas pelo colaborador
he_folgas [float64]: horas extras trabalhadas em folgas
time [datetime64]: mês de referência
absenteimo_prep.sap__informacoes_cadastrais
Tabela com as principais organizações cadastrais de cada colaborador bem como as informações relevantes de unidades e fábricas de trabalho, será utilizada para a criação da coluna grupo_divisao
posteriormente. Foram usados os seguintes campos:
modeling_unit_id [int64]: matrícula do colaborador
descricao_atividade4 [object]: ramo de atividades
local_fisico [object]: local físico
centro_de_custo [object]: centro de custo
time [datetime64]: mês de referência
Descrição dos passos necessários
Para rodar o modelo são necessários alguns passos de preparação de dados, sucedidos pelo modelo em sí si e um processo para gerar as bases que são utilizadas no PowerBI.
...