Coletor investing - brazil 10 year bond
Esta página tem como finalidade documentar o processo de coleta dos dados oriundos do site investing (https://www.investing.com/rates-bonds/brazil-10-year-bond-yield-historical-data).
A extração dos dados foi realizada utilizando linguagem de programação Python com framework Spark em um Cluster Databrics da Dexco.
Este processo realiza um web crawler na pagina listada acima.
Devido ser um processo que envolve acessar uma página Web, realizar download do relatório em csv, há a grande possibilidade de o processo mudar (seja a URL acima, formato de navegação da página, endereço de download do arquivo e também formatação/reposicionamento dos campos dentro do csv) devendo haver um constante monitoramento e ajuste do código pela equipe da Dexco.
Este documento visa destacar abaixo os principais pontos do processo de coleta do investing - brazil 10 year bond.
Resumo do Processo:
Diariamente o Investing através da página (https://www.investing.com/rates-bonds/brazil-10-year-bond-yield-historical-data) relatórios em formato csv (.csv) do indicador financeiro Brazil 10-Year Bond Yield
A disposição da página, acessado em 14-Julho-2022, é a seguinte:
O processo desenvolvido em PySpark, acessa esta página acima, e realiza uma ação nos seguintes momentos:
Muda o relatório para uma visão mensal
Clica para fazer download
Realiza o login
clica novamente para fazer o download do relatório
É feito a coleta dos dados do csv, convertido para um Dataframe, os dados são salvos sem nenhuma tratativa na camada Bronze, é feito um simples append.
A camada Silver é montada a partir da leitura dos dados que estão na camada bronze, onde é feito uma normalização do campo de data, onde é convertido para o formato yyyy-mm-01
, e os campos numericos são convertidos para float
.
Databricks:
Relação de Jobs x Notebooks que compõem o processo:
Job | Parâmetros | Periodicidade | Notebook | Repositório |
---|---|---|---|---|
bronze-investing-brazil-10-year-bond | {
"url": "https://www.investing.com/rates-bonds/brazil-10-year-bond-yield-historical-data"
} | Diariamente | inteligencia-mercado/investing/bronze/brazil-10-year-bond
| https://bitbucket.org/duratex/analytics-databricks-inteligencia-mercado.git |
Job | Parâmetros | Periodicidade | Notebook | Repositório |
---|---|---|---|---|
silver-investing-brazil-10-year-bond |
| Diariamente | inteligencia-mercado/investing/silver/brazil-10-year-bond
| https://bitbucket.org/duratex/analytics-databricks-inteligencia-mercado.git |
Tabelas:
Lista de tabelas que compõem o processo:
Tabelas referentes a extração do arquivo “Brazil 10-Year Bond Yield Historical Data.csv“
investing.tb_brazil_10_year_bond_yield_bronze (Tabela contendo os dados de indicadores financeiros de Brazil 10 years bond fornecido pelo investing.com) |
| |||||||
---|---|---|---|---|---|---|---|---|
Field | Key | Not Null | Partition | Element | Type | Size | Decimal | Description |
date | Não | Não | Não |
| string |
|
| mês ano do indicador financeiro |
price | Não | Não | Não |
| double |
|
| valor do ativo |
open | Não | Não | Não |
| double |
|
| valor de abertura do ativo dentro do mês |
high | Não | Não | Não |
| double |
|
| maior valor do ativo dentro do mês |
low | Não | Não | Não |
| double |
|
| menor valor do ativo dentro do mês |
change_percentual | Não | Não | Não |
| double |
|
| % de mudança do ativo |
investing.tb_brazil_10_year_bond_yield_silver Essa tabela é gerada a partir dos dados da camada bronze (investing.tb_brazil_10_year_bond_yiels_bronze) |
| |||||||
---|---|---|---|---|---|---|---|---|
Field | Key | Not Null | Partition | Element | Type | Size | Decimal | Description |
date | Não | Não | Não |
| date |
|
| mês ano do indicador financeiro |
price | Não | Não | Não |
| float |
|
| valor do ativo |
open | Não | Não | Não |
| float |
|
| valor de abertura do ativo dentro do mês |
high | Não | Não | Não |
| float |
|
| maior valor do ativo dentro do mês |
low | Não | Não | Não |
| float |
|
| menor valor do ativo dentro do mês |
change_percentual | Não | Não | Não |
| float |
|
| % de mudança do ativo |