/
Coletor Itaú Projeções

Esta página tem como finalidade documentar o processo de coleta dos dados oriundos da página de Projeções de Indicadores “Longo Prazo” e do “Cenário Brasil” disponibilizados mensalmente na seguinte página web:

A extração dos dados foi realizada utilizando linguagem de programação Python com framework Spark em um Cluster Databrics da Dexco.

Este processo realiza apenas a coleta das planilhas em formato Excel, realiza a limpeza e pivoteamento dos dados e por fim os armazena na camada “bronze” do Data Lake.

Devido ser um processo que envolve acessar uma página Web, realizar download de planilhas em formato Excel (.xlsx), há a grande possibilidade de o processo mudar (seja a URL acima, formato de navegação da página, endereço de download do arquivo e também formatação/reposicionamento de células dentro da planilha) devendo haver um constante monitoramento e ajuste do código pela equipe da Dexco.


Este documento visa destacar abaixo os principais pontos do processo de coleta do Itaú Projeções de “Longo Prazo” e “Cenário Brasil”


Resumo do Processo:

Mensalmente o Itaú BBA divulga através da página (https://www.itau.com.br/itaubba-pt/analises-economicas/projecoes ) relatórios em formato Excel (.xlsx) de indicadores financeiros, sendo:

  • Longo Prazo

  • Cenário Brasil

A disposição da página, acessado em 16-Junho-2022, é a seguinte:

O processo desenvolvido em PySpark, acessa esta página acima, e realiza o click em 2 momentos, um sobre o link “baixar excel” na seção Longo Prazo - {nome do mês} {ano corrente}, e depois o mesmo é realizado no link “baixar excel” da seção Cenário Brasil - {nome do mês} {ano corrente}.

Uma vez os arquivos realizados download no diretório /tmp/ do Cluster Databrics, é feito a abertura do arquivo e baixado duas abas de cada um dos arquivos

Longo Prazo: (Brasil e Brasil_Trimestral)

Cenário Brasil: (Brasil - Mensal e Brasil - Trimestral)

É feito a coleta dos dados contidos nas Tabelas das abas acima, e convertido para um Dataframe, realizado o tratamento dos cabeçalhos, removendo linhas e colunas vazias, substituindo valores em branco por 0, e ao final pivoteando a tabela em linhas, para enfim armazenar em tabelas da camada Bronze do Data Lake da Dexco.


Databricks:

Relação de Jobs x Notebooks que compõem o processo:

Job
Parâmetros
Periodicidade
Notebook
Repositório

coletor_itau_projecoes

1{ 2 "url": "https://www.itau.com.br/itaubba-pt/analises-economicas/projecoes", 3 "dbname": "itau_projecoes", 4}

Semanalmente
("13 0 4 ? * Mon")

Task #1: inteligencia-mercado/itau/projecoes/longo_prazo/itau_projecoes_longo_prazo

Task #2: inteligencia-mercado/itau/projecoes/cenario_brasil/itau_projecoes_cenario_brasil


https://bitbucket.org/duratex/analytics-databricks-inteligencia-mercado.git


Tabelas:

Lista de tabelas que compõem o processo:


  • Tabelas refentes a extração do arquivo “Longo Prazo“

itau_projecoes.longo_prazo_anual

(Tabela contendo os dados de indicadores financeiros de Longo Prazo Anual fornecido pelo Itaú BBA)
Field
Key
Not Null
Partition
Element
Type
Size
Decimal
Description

indicador

Não

Não

Não


varchar(100)



Sigla e ou Nome do Indicador Financeiro

ano

Não

Não

Não


varchar(10)



Ano de Referencia do Indicador Financeiro

valor

Não

Não

Não


varchar(50)



Valor de Referencia do Indicador Financeiro

data_carga

Não

Não

Não


varchar(10)



Data da carga dos registros na tabela

mes_referencia

Não

Não

Sim


varchar(10)



Primeiro dia do mes de Referencia do arquivo publicado



itau_projecoes.longo_prazo_trimestral

(Tabela contendo os dados de indicadores financeiros de Longo Prazo Trimestral fornecido pelo Itaú BBA)
Field
Key
Not Null
Partition
Element
Type
Size
Decimal
Description

indicador

Não

Não

Não


varchar(100)



Sigla e ou Nome do Indicador Financeiro

ano

Não

Não

Não


varchar(10)



Ano de Referencia do Indicador Financeiro

trimestre

Não

Não

Não


varchar(10)



Trimestre de Referencia do Indicador Financeiro

ano_trimestre

Não

Não

Não


varchar(25)



Ano e Trimestre de Referencia do Indicador Financeiro

valor

Não

Não

Não


varchar(50)



Valor de Referencia do Indicador Financeiro

data_carga

Não

Não

Não


varchar(10)



Data da carga dos registros na tabela

mes_referencia

Não

Não

Sim


varchar(10)



Primeiro dia do mes de Referencia do arquivo publicado



  • Tabelas refentes a extração do arquivo “Cenário Brasil“

itau_projecoes.cenario_brasil_mensal

(Tabela contendo os dados de indicadores financeiros do Cenário Brasil Mensal fornecido pelo Itaú BBA)
Field
Key
Not Null
Partition
Element
Type
Size
Decimal
Description

indicador

Não

Não

Não


varchar(100)



Sigla e ou Nome do Indicador Financeiro

mes

Não

Não

Não


varchar(10)



Mes de Referencia do Indicador Financeiro

valor

Não

Não

Não


varchar(50)



Valor de Referencia do Indicador Financeiro

data_carga

Não

Não

Não


varchar(10)



Data da carga dos registros na tabela

mes_referencia

Não

Não

Sim


varchar(10)



Primeiro dia do mes de Referencia do arquivo publicado



itau_projecoes.cenario_brasil_trimestral

(Tabela contendo os dados de indicadores financeiros do Cenário Brasil Trimestral fornecido pelo Itaú BBA)
Field
Key
Not Null
Partition
Element
Type
Size
Decimal
Description

indicador_prefixo

Não

Não

Não


varchar(50)



Sigla e ou Nome do Indicador Financeiro

indicador_sufixo

Não

Não

Não


varchar(50)



Informação adicional do Indicador Financeiro

trimestre

Não

Não

Não


varchar(25)



Ano e Trimestre de Referencia do Indicador Financeiro

valor

Não

Não

Não


varchar(50)



Valor de Referencia do Indicador Financeiro

data_carga

Não

Não

Não


varchar(10)



Data da carga dos registros na tabela

mes_referencia

Não

Não

Sim


varchar(10)



Primeiro dia do mes de Referencia do arquivo publicado