/
Documentação de IA

Documentação de IA

 

Aqui estão algumas recomendações para otimizar a performance e eficácia do modelo:

  1. Coleta de Dados:

    • Garanta que os dados coletados sejam diversificados e representativos do universo de produtos que você pretende classificar.

    • Priorize a qualidade dos dados. Dados limpos e bem estruturados reduzem o risco de viés e melhoram a precisão dos modelos.

  2. Exploração de Dados:

    • Realize uma análise exploratória dos dados para entender as características, distribuições e possíveis anomalias.

    • Identifique padrões e tendências que podem ser relevantes para a classificação.

  3. Feature Engineering:

    • Derive novos recursos (features) que podem ser úteis para a classificação.

    • Considere vetorização de texto (como TF-IDF ou embeddings) para extrair características semânticas das descrições dos produtos.

  4. Model Selection:

    • Teste vários algoritmos e arquiteturas de modelos, incluindo métodos tradicionais e redes neurais profundas.

    • Considere usar cross-validation para avaliar a eficácia do modelo em diferentes subconjuntos de dados.

  5. Regularização e Otimização:

    • Evite o overfitting utilizando técnicas de regularização.

    • Otimize hiperparâmetros usando métodos como pesquisa em grade (grid search) ou pesquisa aleatória (random search).

  6. Avaliação do Modelo:

    • Use métricas adequadas para avaliar a performance. Em problemas de classificação, considere precisão, revocação, F1-score, ROC e AUC.

    • Avalie o modelo não apenas globalmente, mas também por cada classe individualmente.

  7. Tratamento de Viéses:

    • Monitore o modelo quanto a possíveis viéses, que podem surgir devido à representação desigual das classes ou padrões específicos nos dados.

    • Implemente técnicas de redução de viés, se necessário.

  8. Feedback Loop:

    • Após a implantação, colete feedback dos usuários para identificar classificações incorretas e use essa informação para melhorar o modelo.

  9. Re-treinamento:

    • Re-treine regularmente o modelo com novos dados para garantir que ele evolua com as tendências e mudanças no universo de produtos.

  10. Monitoramento e Manutenção:

    • Monitore a performance do modelo ao longo do tempo. Um decréscimo na precisão pode indicar a necessidade de atualização ou re-treinamento.

  11. Documentação e Comunicação:

    • Mantenha documentação clara sobre as decisões, processos e métricas do modelo. Isso facilita a revisão, a iteração e a comunicação com partes interessadas.

Lembre-se de que a implementação de uma solução de classificação é um processo iterativo. O ambiente, os dados e os requisitos podem mudar com o tempo, então estar preparado para adaptar e refinar seu modelo é fundamental para o sucesso a longo prazo.

Análises preliminares do time de Dados (Inácio) na apresentação:


Sobre o Modelo Atual (em produção):

  • Utilizamos uma Rede Neural Multi Layer Perceptron.

  • Testamos até 1000 camadas.

  • Processamos os dados em lotes (batch_size) de 256 itens por vez.

  • O modelo foi treinado em 10 ciclos (ou épocas).


Especificidades Técnicas (Para os interessados em detalhes mais técnicos):

  • Funções de Ativação: Softmax e tanh

  • Otimizador: adam


Como o Modelo Funciona:

  • Entrada: Descrição do item.

  • Classificações:

    • Principal (Main): Combinamos informações das colunas de empresa, linha e padrão.

    • Dimensão: Altura x Largura

    • Espessura

    • Faces (Faces do produto)


Arquivos Relacionados ao Modelo:
(Lista simplificada para evitar sobrecarga)

  • Codificadores (encoders), Modelos e Transformadores de Texto (tfid) para:

    • Principal, Dimensão, Espessura e Faces.


Nota: A ideia é simplificar ao máximo, dando ênfase aos aspectos mais relevantes para o negócio e mantendo as informações técnicas em uma área separada, para aqueles que desejam um pouco mais de detalhe.

 

 

Notebooks disponibilizados (web-clubeduratex/app at master · dexco-brasil/web-clubeduratex (github.com))

  • DURATEX_all_classifiers_all_data_MLP.ipynb

  • DURATEX_all_classifiers_MLP.ipynb

  • DURATEX_dimension_classifier.ipynb

  • DURATEX_POC_char_embeding.ipynb

  • DURATEX_POC_tk_char_embeding_dimen.ipynb

  • DURATEX_POC-ML.ipynb

  • DURATEX_predictor.ipynb

  • DURATEX_product_company_classifier.ipynb

  • DURATEX_product_dimension_classifier.ipynb

  • DURATEX_product_thikness_classifier.ipynb

  • DURATEX_products_classifier_MLP.ipynb

  • DURATEX_word_embeding_products_classifier.ipynb

 

Planilhas (dados de inputs) disponibilizadas

 

  • itens_classif_dataset_v15.xlsx

  • itens_dimen_v15.xlsx

  • itens_dimen_without_thickness_v15.xlsx

  • itens_not_classif_v15.xlsx

  • itens_poc_ml.xlsx

  • itens_poc_ml_dimen.xlsx

 

Modelo atual

 

  • O modelo em produção foi desenvolvido usando rede neural Multi layer perceptron, com funções de ativação Softmax e tanh e otimizador adam, tendo testado o máximo de 1000 camadas, com batch_size de 256 e 10 épocas.

  • O modelo usa como input o descritivo de item, e classifica:

  • Main: concatenação das colunas pdtcompany+pdtline+pdtpattern

  • Dimension:pdtheightXpdtwidth

  • Pdtthickness

  • Pdtfaces

  • main-encoder.pkl, main-model.h5, main-tfid.pkl, dimension-encoder.pkl, dimension-model.h5, dimension-tfid.pkl, thickness-encoder.pkl, thickness-model.h5, thickness-tfid.pkl, faces-encoder.pkl, faces-model.h5 e faces-tfid.pkl

Related content

Documentação de serviços e diagrama
Documentação de serviços e diagrama
Read with this
Documentação de Orientação para Preparação de Base de Dados
Documentação de Orientação para Preparação de Base de Dados
More like this
Regras de negócio para Processamento de Notas Fiscais
Regras de negócio para Processamento de Notas Fiscais
Read with this
Criação de Processo para Implementação de Dados Estruturados para Organization, WebSite e FAQ
Criação de Processo para Implementação de Dados Estruturados para Organization, WebSite e FAQ
More like this
Documentação de máquinas
Documentação de máquinas
Read with this
Grandes obras
Grandes obras
More like this