/
Clipping de Notícias
  • Ready for review
  • Clipping de Notícias

    Este processo de transformação de dados para consumo pelas áreas interessadas, lê da tabela api_info4.api_info4_true, e processa seus dados, gerando uma nova tabela tratada na camada Gold, em inteligencia_mercado_gold.clipping_noticias.

    As notícias são segmentadas entre notícias do dia e demais notícias, por meio da coluna dt_registro e são ordenadas decrescentemente por dt_registro e dt_publicação, de modo que as notícias obtidas mais recentemente sejam exibidas primeiro.

     

    Databricks:

    Relação de Jobs x Notebooks que compõem o processo:

    Job

    Periodicidade

    Task

    Notebook

    Parâmetros

    Repositório

    Job

    Periodicidade

    Task

    Notebook

    Parâmetros

    Repositório

    inteligencia-mercado_clipping_noticias

    Minutos 5 e 45 de cada hora, entre 8h e 21h
    (0 5/45 8-21 ? * * *)

    clipping

    /gold/inteligencia-mercado/clipping

    Nenhum

    https://bitbucket.org/duratex/analytics-databricks-inteligencia-mercado.git

     

    Tabelas:

    Lista de tabelas geradas pelo processo:

    inteligencia_mercado_gold.clipping_noticias

    (Tabela contendo as notícias indexadas pela Info4 e marcadas pelo time de Inteligência de Mercado)

     

    inteligencia_mercado_gold.clipping_noticias

    (Tabela contendo as notícias indexadas pela Info4 e marcadas pelo time de Inteligência de Mercado)

     

    Field

    Key

    Not Null

    Partition

    Element

    Type

    Size

    Decimal

    Description

    dt_registro

    Não

    Não

    -

    -

    date

    -

    -

    Data de captura da notícia, após marcada pelo time de Inteligência de Mercado.

    ds_titulo

    Não

    Não

    -

    -

    string

    -

    -

    Título da notícia.

    ds_texto

    Não

    Não

    -

    -

    string

    -

    -

    Texto destacado da notícia, conforme recebido da origem.

    ds_texto_curto

    Não

    Não

    -

    -

    string

    -

    -

    Texto destacado da notícia, limitado a 94 caracteres.

    ds_fonte

    Não

    Não

    -

    -

    string

    -

    -

    Veículo de publicação da notícia.

    dt_publicacao

    Não

    Não

    -

    -

    string

    -

    -

    [REVISAR DATATYPE] Data de publicação da notícia.

    ds_link

    Não

    Não

    -

    -

    string

    -

    -

    Link para a notícia.

    row_number

    Não

    Não

    -

    -

    int

    -

    -

    Campo de ordenação de notícias, para facilitar na exibição.

    ts_incl_reg

    Não

    Não

    -

    -

    timestamp

    -

    -

    Momento da inclusão do registro, para auditoria.

     

    Add label

    Related content