/
Clipping de Notícias

Este processo de transformação de dados para consumo pelas áreas interessadas, lê da tabela api_info4.api_info4_true, e processa seus dados, gerando uma nova tabela tratada na camada Gold, em inteligencia_mercado_gold.clipping_noticias.

As notícias são segmentadas entre notícias do dia e demais notícias, por meio da coluna dt_registro e são ordenadas decrescentemente por dt_registro e dt_publicação, de modo que as notícias obtidas mais recentemente sejam exibidas primeiro.


Databricks:

Relação de Jobs x Notebooks que compõem o processo:

Job

Periodicidade

Task

Notebook

Parâmetros

Repositório

inteligencia-mercado_clipping_noticias

Minutos 5 e 45 de cada hora, entre 8h e 21h
(0 5/45 8-21 ? * * *)

clipping

/gold/inteligencia-mercado/clipping

Nenhum

https://bitbucket.org/duratex/analytics-databricks-inteligencia-mercado.git

 

Tabelas:

Lista de tabelas geradas pelo processo:

inteligencia_mercado_gold.clipping_noticias

(Tabela contendo as notícias indexadas pela Info4 e marcadas pelo time de Inteligência de Mercado)


Field

Key

Not Null

Partition

Element

Type

Size

Decimal

Description

dt_registro

Não

Não

-

-

date

-

-

Data de captura da notícia, após marcada pelo time de Inteligência de Mercado.

ds_titulo

Não

Não

-

-

string

-

-

Título da notícia.

ds_texto

Não

Não

-

-

string

-

-

Texto destacado da notícia, conforme recebido da origem.

ds_texto_curto

Não

Não

-

-

string

-

-

Texto destacado da notícia, limitado a 94 caracteres.

ds_fonte

Não

Não

-

-

string

-

-

Veículo de publicação da notícia.

dt_publicacao

Não

Não

-

-

string

-

-

[REVISAR DATATYPE] Data de publicação da notícia.

ds_link

Não

Não

-

-

string

-

-

Link para a notícia.

row_number

Não

Não

-

-

int

-

-

Campo de ordenação de notícias, para facilitar na exibição.

ts_incl_reg

Não

Não

-

-

timestamp

-

-

Momento da inclusão do registro, para auditoria.