/
DGA-229 Metadata Discovery Tableau

DGA-229 Metadata Discovery Tableau

XmlMetaDataExtraction 

Código Repositório: https://bitbucket.org/duratex/arquitetura-dados-data-discovery/src/master/  

CARD: https://dtxlab.atlassian.net/jira/software/projects/DGA/boards/407/roadmap?assignee=61b787c5ef5b460071fccbd4&selectedIssue=DGA-229

 

OBJETIVO: O objetivo do projeto consiste em realizar download de todos arquivos “.xml” contidos no tableau e extrair os metadados dos arquivos para um arquivo “.csv”. 

download_files_api.py:

Contém as funções responsaveis por fazer o download dos arquivos xml, podendo ser arquivos de workbooks e também de datasources. Nele é feito toda a lógica de requisições e autenticação das API’s necessárias para o download dos arquivos, e é responsavel por armazenar localmente os arquivos nas respectivas pastas (/workbooks, /datasources).

  • É necessário verificar os caminhos(destinos) que são utilizados no código, esses caminhos são usados para definir o local em que deverá ser armazenado os arquivos baixados, isso é feito nas linhas:  

(184: os.mkdir(f'./workbooks/{site["contentUrl"]}/'))(197:os.mkdir(f'./datasources/{site["contentUrl"]}/')).

 

  • Em todo o código é usado “./” nos caminhos para indicar o caminho local, é necessário verificar esses caminhos para indicar o caminho local correto desejado. 

functions.py:

Contém as funções responsaveis por fazer todo o tratamento e extração dos metadados contidos nos arquivos “xml” e é também responsavel por gerar o arquivo “.csv”.

  • Nestas funções é utilizado o caminho em que os arquivos baixados foram armazenados, portanto é necessário verificar e informar o caminho correto nas linhas:

(342:os.listdir(f"./datasources/{site}")) 

(381:os.listdir(f"./workbooks/")) 

  • Vale ressaltar que em diversas partes código é usado “./” para informar o caminho local dos arquivos, como por exemplo na linha:

(329: os.listdir("./datasources"))

É necessário verificar esses caminhos e informar o caminho correto. 

  • Na linha (316: merge_all_to_a_book(glob.glob("./*.csv"), "XmlMetadata.xlsx")) é definido o armazenamento final do arquivo contendo os dados extraidos, nessa linha é possível definir o nome desejado do arquivo e local em que deverá ser armazenado. 

Add label

Related content

DGA-548 Leo Madeira: Recebimento de arquivo por e-mail
DGA-548 Leo Madeira: Recebimento de arquivo por e-mail
Read with this
Condição de pagamento
Condição de pagamento
Read with this
PARTIDAS_COMPENSADAS_FORNECEDORES
PARTIDAS_COMPENSADAS_FORNECEDORES
More like this
PARTIDAS_COMPESADA_CLIENTES
PARTIDAS_COMPESADA_CLIENTES
More like this