Este documento tem como propósito esclarecer todas as dúvidas referente a obtenção dos dados do Databricks diretamente pro Excel.
1 - DOWNLOAD E INSTALAÇÃO DO CONECTOR
O primeiro passo é o download e configuração do conector simba Spark para a máquina que será utilizada.
Para isto, basta acessar o link ( ODBC Drivers Download – Databricks ) e realizar o download levando em consideração o sistema operacional / versão que você está utilizando.
Após o download, basta realizar a instalação apenas clicando para seguir até o final.
OBS: Em algumas máquinas pode dar problema na instalação caso o usuário não tenha a permissão, para isto, será necessário entrar em contato com o suporte, abrir chamado e solicitar a instalação.
2 - CONFIGURAÇÃO
Uma vez que o passo 1 foi feito com sucesso, agora iremos configurar a conexão com os passos abaixo:
2.1 ABRIR O ADMINISTRADOR DE FONTE DE DADOS (ODBC)
Para isto, basta ir no menu iniciar e digitar ODBC conforme print abaixo:
OBS: Atente-se à arquitetura da sua máquina se é 32BIT ou 64BIT. No caso do print acima a máquina é 64 BIT por isto vou abrir o respectivo aplicativo.
2.2 CONFIGURAR ODBC
Após aberto o gerenciador ODBC, iremos realizar a configuração do mesmo. Para isto, é necessário ter em mãos as seguintes informações:
TOKEN
HOSTNAME
HTTP PATH
Estas informações devem ser solicitadas para o time de arquitetura de dados. Sem elas, não dá para seguir para os próximos passos.
OBS: Caso á area já use o databricks conectado no Tableau ou Power BI, as informações necessárias são as mesmas, logo, pode-se usar para seguir com os próximos passos.
Com as informações necessárias em mãos e com o o gerenciador ODBC aberto, basta clicar no DNS de Sistema conforme print abaixo:
Ao clicar aparecerá uma tela semelhante a abaixo:
Selecione o conector respectivo ao driver Simba Spark ODBC Driver e clique em configurar e em seguida aparecerá uma tela semelhante ao print abaixo:
Segue uma explicação de cada numeral marcado no print:
Nome do Driver (Pode-se colocar o que quiser, a sugestão é colocar um nome que seja fácil de identificar que seja o SIMBA Conector pro Databricks)
Uma descrição (Pode-se colocar o que quiser, esta informação serve para identificar o conector nas ferramentas)
Deve-se selecionar o SparkThriftServer (Spark 1.1 and Later) - Importante selecionar o correto, por default vem outro selecionado.
Coloca neste campo o HOSTNAME do ambiente que está sendo conectado. Esta informação deve ser solicitada para o time de arquitetura de dados caso a área não possua.
OBS: As informações mudam para ambiente de DEV e PROD.
Porta que será conectada, sempre será 443
Database que iniciará a conexão. (Está informação pode ser trocada depois antes da conexão com o excel)
Selecione sempre User Name anda Password
SEMPRE fixo token
TOKEN informado pelo time de arquitetura de dados ou o utilizado pela sua área.
OBS: As informações mudam para ambiente de DEV e PROD.
Fixo HTTP
Neste menu, selecionar Enable SSL conforme print abaixo:
12. No HTTP Option colocar a informação enviada pela arquitetura de dados, ou a já usada pela área no tableau ou power bi:
OBS: Não deve-se clicar em ADD. Apenas coloque a informação no campo marcado e clique em OK.
OBS: As informações mudam para ambiente de DEV e PROD.
Feito todos os passos acima, podemos testar clicando no botão TEST e verificar se deu sucesso através da exibição de uma mensagem conforme abaixo:
Caso apareça mensagem de falha, devemos revisar os passos supracitados afim de encontrar alguma diferença.
3. CONEXÃO COM O EXCEL
Uma vez realizado todos os procedimentos informados no passo 2, vamos realizar a conexão no excel através do power query.
Apos abri o excel, basta ir no menu Dados, após isto clicar em Obter Dados e em seguida selecionar De outras Fontes e após Do Microsoft Query.
Feito os passos acima, aparecerá a tela para selecionar qual a fonte de dados queremos. No nosso caso, queremos a conexão que configuramos no passo 2.
Basta clicar na mesma e clicar em OK.
Após isto aparecerá uma tela muito semelhante a que configuramos no passo 2, neste passo teremos que colocar o token novamente e aqui podemos trocar o database caso necessário:
Feito isto, aparecerá a tela para selecionar a(s) tabela(s) que queremos do database informado no passo anterior.
Para selecionar a tabela, basta clicar em cima do nome, em seguida clicar no botão > conforme demonstrado na imagem abaixo.
Com isto, basta clicar em avançar caso esteja tudo certo. Na próxima tela podemos colocar filtros nos campos, caso queiramos. Se não for necessário nenhum filtro, podemos clicar em avançar mais uma vez.
Na tela em seguida podemos aplicar ordenação, caso não queiramos basta seguir mais uma vez.
E na última tela, clicar em Concluir:
Com isto, os dados serão obtidos, colocarmos na memória, e na tela em seguida podemos selecionar o que queremos fazer com eles:
Neste exemplo, eu quero apenas que os dados apareceram na planilha, por isto eu mantenho selecionado tabela e clico em ok.
Feito isto, os dados apareceram na planilha para serem usados conforme a gosto do freguês.
4. Considerações Finais
Qualquer dúvida ou problema a área de arquitetura de dados se coloca à disposição.