Coletor Itaú Projeções
Esta página tem como finalidade documentar o processo de coleta dos dados oriundos da página de Projeções de Indicadores “Longo Prazo” e do “Cenário Brasil” disponibilizados mensalmente na seguinte página web:
A extração dos dados foi realizada utilizando linguagem de programação Python com framework Spark em um Cluster Databrics da Dexco.
Este processo realiza apenas a coleta das planilhas em formato Excel, realiza a limpeza e pivoteamento dos dados e por fim os armazena na camada “bronze” do Data Lake.
Devido ser um processo que envolve acessar uma página Web, realizar download de planilhas em formato Excel (.xlsx), há a grande possibilidade de o processo mudar (seja a URL acima, formato de navegação da página, endereço de download do arquivo e também formatação/reposicionamento de células dentro da planilha) devendo haver um constante monitoramento e ajuste do código pela equipe da Dexco.
Este documento visa destacar abaixo os principais pontos do processo de coleta do Itaú Projeções de “Longo Prazo” e “Cenário Brasil”
Resumo do Processo:
Mensalmente o Itaú BBA divulga através da página (https://www.itau.com.br/itaubba-pt/analises-economicas/projecoes ) relatórios em formato Excel (.xlsx) de indicadores financeiros, sendo:
Longo Prazo
Cenário Brasil
A disposição da página, acessado em 16-Junho-2022, é a seguinte:
O processo desenvolvido em PySpark, acessa esta página acima, e realiza o click em 2 momentos, um sobre o link “baixar excel” na seção Longo Prazo - {nome do mês} {ano corrente}, e depois o mesmo é realizado no link “baixar excel” da seção Cenário Brasil - {nome do mês} {ano corrente}.
Uma vez os arquivos realizados download no diretório /tmp/ do Cluster Databrics, é feito a abertura do arquivo e baixado duas abas de cada um dos arquivos
Longo Prazo: (Brasil e Brasil_Trimestral)
Cenário Brasil: (Brasil - Mensal e Brasil - Trimestral)
É feito a coleta dos dados contidos nas Tabelas das abas acima, e convertido para um Dataframe, realizado o tratamento dos cabeçalhos, removendo linhas e colunas vazias, substituindo valores em branco por 0, e ao final pivoteando a tabela em linhas, para enfim armazenar em tabelas da camada Bronze do Data Lake da Dexco.
Databricks:
Relação de Jobs x Notebooks que compõem o processo:
Job | Parâmetros | Periodicidade | Notebook | Repositório |
---|---|---|---|---|
coletor_itau_projecoes | {
"url": "https://www.itau.com.br/itaubba-pt/analises-economicas/projecoes",
"dbname": "itau_projecoes",
} | Semanalmente | Task #1: inteligencia-mercado/itau/projecoes/longo_prazo/itau_projecoes_longo_prazo Task #2: inteligencia-mercado/itau/projecoes/cenario_brasil/itau_projecoes_cenario_brasil
| https://bitbucket.org/duratex/analytics-databricks-inteligencia-mercado.git |
Tabelas:
Lista de tabelas que compõem o processo:
Tabelas refentes a extração do arquivo “Longo Prazo“
itau_projecoes.longo_prazo_anual (Tabela contendo os dados de indicadores financeiros de Longo Prazo Anual fornecido pelo Itaú BBA) | ||||||||
---|---|---|---|---|---|---|---|---|
Field | Key | Not Null | Partition | Element | Type | Size | Decimal | Description |
indicador | Não | Não | Não |
| varchar(100) |
|
| Sigla e ou Nome do Indicador Financeiro |
ano | Não | Não | Não |
| varchar(10) |
|
| Ano de Referencia do Indicador Financeiro |
valor | Não | Não | Não |
| varchar(50) |
|
| Valor de Referencia do Indicador Financeiro |
data_carga | Não | Não | Não |
| varchar(10) |
|
| Data da carga dos registros na tabela |
mes_referencia | Não | Não | Sim |
| varchar(10) |
|
| Primeiro dia do mes de Referencia do arquivo publicado |
itau_projecoes.longo_prazo_trimestral (Tabela contendo os dados de indicadores financeiros de Longo Prazo Trimestral fornecido pelo Itaú BBA) | ||||||||
---|---|---|---|---|---|---|---|---|
Field | Key | Not Null | Partition | Element | Type | Size | Decimal | Description |
indicador | Não | Não | Não |
| varchar(100) |
|
| Sigla e ou Nome do Indicador Financeiro |
ano | Não | Não | Não |
| varchar(10) |
|
| Ano de Referencia do Indicador Financeiro |
trimestre | Não | Não | Não |
| varchar(10) |
|
| Trimestre de Referencia do Indicador Financeiro |
ano_trimestre | Não | Não | Não |
| varchar(25) |
|
| Ano e Trimestre de Referencia do Indicador Financeiro |
valor | Não | Não | Não |
| varchar(50) |
|
| Valor de Referencia do Indicador Financeiro |
data_carga | Não | Não | Não |
| varchar(10) |
|
| Data da carga dos registros na tabela |
mes_referencia | Não | Não | Sim |
| varchar(10) |
|
| Primeiro dia do mes de Referencia do arquivo publicado |
Tabelas refentes a extração do arquivo “Cenário Brasil“
itau_projecoes.cenario_brasil_mensal (Tabela contendo os dados de indicadores financeiros do Cenário Brasil Mensal fornecido pelo Itaú BBA) | ||||||||
---|---|---|---|---|---|---|---|---|
Field | Key | Not Null | Partition | Element | Type | Size | Decimal | Description |
indicador | Não | Não | Não |
| varchar(100) |
|
| Sigla e ou Nome do Indicador Financeiro |
mes | Não | Não | Não |
| varchar(10) |
|
| Mes de Referencia do Indicador Financeiro |
valor | Não | Não | Não |
| varchar(50) |
|
| Valor de Referencia do Indicador Financeiro |
data_carga | Não | Não | Não |
| varchar(10) |
|
| Data da carga dos registros na tabela |
mes_referencia | Não | Não | Sim |
| varchar(10) |
|
| Primeiro dia do mes de Referencia do arquivo publicado |
itau_projecoes.cenario_brasil_trimestral (Tabela contendo os dados de indicadores financeiros do Cenário Brasil Trimestral fornecido pelo Itaú BBA) | ||||||||
---|---|---|---|---|---|---|---|---|
Field | Key | Not Null | Partition | Element | Type | Size | Decimal | Description |
indicador_prefixo | Não | Não | Não |
| varchar(50) |
|
| Sigla e ou Nome do Indicador Financeiro |
indicador_sufixo | Não | Não | Não |
| varchar(50) |
|
| Informação adicional do Indicador Financeiro |
trimestre | Não | Não | Não |
| varchar(25) |
|
| Ano e Trimestre de Referencia do Indicador Financeiro |
valor | Não | Não | Não |
| varchar(50) |
|
| Valor de Referencia do Indicador Financeiro |
data_carga | Não | Não | Não |
| varchar(10) |
|
| Data da carga dos registros na tabela |
mes_referencia | Não | Não | Sim |
| varchar(10) |
|
| Primeiro dia do mes de Referencia do arquivo publicado |