XmlMetaDataExtraction
Código Repositório: https://bitbucket.org/duratex/arquitetura-dados-data-discovery/src/master/
OBJETIVO: O objetivo do projeto consiste em realizar download de todos arquivos “.xml” contidos no tableau e extrair os metadados dos arquivos para um arquivo “.csv”.
download_files_api.py:
Contém as funções responsaveis por fazer o download dos arquivos xml, podendo ser arquivos de workbooks e também de datasources. Nele é feito toda a lógica de requisições e autenticação das API’s necessárias para o download dos arquivos, e é responsavel por armazenar localmente os arquivos nas respectivas pastas (/workbooks, /datasources).
É necessário verificar os caminhos(destinos) que são utilizados no código, esses caminhos são usados para definir o local em que deverá ser armazenado os arquivos baixados, isso é feito nas linhas:
(184: os.mkdir(f'./workbooks/{site["contentUrl"]}/'))(197:os.mkdir(f'./datasources/{site["contentUrl"]}/')).
Em todo o código é usado “./” nos caminhos para indicar o caminho local, é necessário verificar esses caminhos para indicar o caminho local correto desejado.
functions.py:
Contém as funções responsaveis por fazer todo o tratamento e extração dos metadados contidos nos arquivos “xml” e é também responsavel por gerar o arquivo “.csv”.
Nestas funções é utilizado o caminho em que os arquivos baixados foram armazenados, portanto é necessário verificar e informar o caminho correto nas linhas:
(342:os.listdir(f"./datasources/{site}"))
(381:os.listdir(f"./workbooks/"))
Vale ressaltar que em diversas partes código é usado “./” para informar o caminho local dos arquivos, como por exemplo na linha:
(329: os.listdir("./datasources"))
É necessário verificar esses caminhos e informar o caminho correto.
Na linha (316: merge_all_to_a_book(glob.glob("./*.csv"), "XmlMetadata.xlsx")) é definido o armazenamento final do arquivo contendo os dados extraidos, nessa linha é possível definir o nome desejado do arquivo e local em que deverá ser armazenado.