Aqui estão algumas recomendações para otimizar a performance e eficácia do modelo:

Coleta de Dados:
- Garanta que os dados coletados sejam diversificados e representativos do universo de produtos que você pretende classificar.
- Priorize a qualidade dos dados. Dados limpos e bem estruturados reduzem o risco de viés e melhoram a precisão dos modelos.
Exploração de Dados:
- Realize uma análise exploratória dos dados para entender as características, distribuições e possíveis anomalias.
- Identifique padrões e tendências que podem ser relevantes para a classificação.
Feature Engineering:
- Derive novos recursos (features) que podem ser úteis para a classificação.
- Considere vetorização de texto (como TF-IDF ou embeddings) para extrair características semânticas das descrições dos produtos.
Model Selection:
- Teste vários algoritmos e arquiteturas de modelos, incluindo métodos tradicionais e redes neurais profundas.
- Considere usar cross-validation para avaliar a eficácia do modelo em diferentes subconjuntos de dados.
Regularização e Otimização:
- Evite o overfitting utilizando técnicas de regularização.
- Otimize hiperparâmetros usando métodos como pesquisa em grade (grid search) ou pesquisa aleatória (random search).
Avaliação do Modelo:
- Use métricas adequadas para avaliar a performance. Em problemas de classificação, considere precisão, revocação, F1-score, ROC e AUC.
- Avalie o modelo não apenas globalmente, mas também por cada classe individualmente.
Tratamento de Viéses:
- Monitore o modelo quanto a possíveis viéses, que podem surgir devido à representação desigual das classes ou padrões específicos nos dados.
- Implemente técnicas de redução de viés, se necessário.
Feedback Loop:
- Após a implantação, colete feedback dos usuários para identificar classificações incorretas e use essa informação para melhorar o modelo.
Re-treinamento:
- Re-treine regularmente o modelo com novos dados para garantir que ele evolua com as tendências e mudanças no universo de produtos.
Monitoramento e Manutenção:
- Monitore a performance do modelo ao longo do tempo. Um decréscimo na precisão pode indicar a necessidade de atualização ou re-treinamento.
Documentação e Comunicação:
- Mantenha documentação clara sobre as decisões, processos e métricas do modelo. Isso facilita a revisão, a iteração e a comunicação com partes interessadas.

Lembre-se de que a implementação de uma solução de classificação é um processo iterativo. O ambiente, os dados e os requisitos podem mudar com o tempo, então estar preparado para adaptar e refinar seu modelo é fundamental para o sucesso a longo prazo.

Análises preliminares do time de Dados (Inácio) na apresentação:

Sobre o Modelo Atual (em produção):

Utilizamos uma Rede Neural Multi Layer Perceptron.
Testamos até 1000 camadas.
Processamos os dados em lotes (batch_size) de 256 itens por vez.
O modelo foi treinado em 10 ciclos (ou épocas).

Especificidades Técnicas (Para os interessados em detalhes mais técnicos):

Funções de Ativação: Softmax e tanh
Otimizador: adam

Como o Modelo Funciona:

Entrada: Descrição do item.
Classificações:
- Principal (Main): Combinamos informações das colunas de empresa, linha e padrão.
- Dimensão: Altura x Largura
- Espessura
- Faces (Faces do produto)

Arquivos Relacionados ao Modelo:
(Lista simplificada para evitar sobrecarga)

Codificadores (encoders), Modelos e Transformadores de Texto (tfid) para:
- Principal, Dimensão, Espessura e Faces.

Nota: A ideia é simplificar ao máximo, dando ênfase aos aspectos mais relevantes para o negócio e mantendo as informações técnicas em uma área separada, para aqueles que desejam um pouco mais de detalhe.

Notebooks disponibilizados (web-clubeduratex/app at master · dexco-brasil/web-clubeduratex (github.com))

DURATEX_all_classifiers_all_data_MLP.ipynb
DURATEX_all_classifiers_MLP.ipynb
DURATEX_dimension_classifier.ipynb
DURATEX_POC_char_embeding.ipynb
DURATEX_POC_tk_char_embeding_dimen.ipynb
DURATEX_POC-ML.ipynb
DURATEX_predictor.ipynb
DURATEX_product_company_classifier.ipynb
DURATEX_product_dimension_classifier.ipynb
DURATEX_product_thikness_classifier.ipynb
DURATEX_products_classifier_MLP.ipynb
DURATEX_word_embeding_products_classifier.ipynb

Planilhas (dados de inputs) disponibilizadas

itens_classif_dataset_v15.xlsx
itens_dimen_v15.xlsx
itens_dimen_without_thickness_v15.xlsx
itens_not_classif_v15.xlsx
itens_poc_ml.xlsx
itens_poc_ml_dimen.xlsx

Modelo atual

O modelo em produção foi desenvolvido usando rede neural Multi layer perceptron, com funções de ativação Softmax e tanh e otimizador adam, tendo testado o máximo de 1000 camadas, com batch_size de 256 e 10 épocas.
O modelo usa como input o descritivo de item, e classifica:
Main: concatenação das colunas pdtcompany+pdtline+pdtpattern
Dimension:pdtheightXpdtwidth
Pdtthickness
Pdtfaces
main-encoder.pkl, main-model.h5, main-tfid.pkl, dimension-encoder.pkl, dimension-model.h5, dimension-tfid.pkl, thickness-encoder.pkl, thickness-model.h5, thickness-tfid.pkl, faces-encoder.pkl, faces-model.h5 e faces-tfid.pkl

Documentação de IA

Análises preliminares do time de Dados (Inácio) na apresentação: