Documentação da Plataforma Big Data

Necessidade: A Secretaria de Controle Externo realizou levantamento de bases de dados dos jurisdicionados, como proposta de mapear possíveis fontes de dados relevantes para o controle externo, aumentando o conhecimento do universo de controle. Nesse estudo foram localizadas mais de 700 bases que podem servir para subsidiar ações de fiscalização nos próximos anos. Dada a quantidade de bases, a diversidade de formatos, a velocidade de atualização e o volume disponível, a área de tecnologia da informação do Tribunal necessita de ferramental adequado para trazer as bases, armazená-las de forma segura, processar e entregar informações relevantes para os gabinetes dos Conselheiros, Auditores, para as áreas de fiscalização e para a sociedade. Isto posto, percebe-se a necessidade de lançar mão de ambiente robusto baseado em Big Data que suporte as ações do Tribunal nos próximos anos, considerando que o atual modelo de armazenamento, que é composto por bancos de dados relacionais e armazenamento em sistema de arquivos do próprio sistema operacional, não atende aos requisitos atuais.

Objetivo: O objetivo desse documento é apresentar os procedimentos de implantação e manutenção da arquitetura de Big Data implantada no 'Tribunal de Contas do Estado de Goiás (TCE-GO)'. Essa arquitetura utiliza softwares livres consolidados e amplamente experimentados pelo mercado que buscam atender a necessidade premente de ágil e robusto recebimento e processamento tempestivo de dados do TCE-GO, em razão da quantidade crescente de informação gerada pelas unidades jurisdicionadas, em seus variados formatos.

Dados da demanda
Área de NegócioResponsávelData da solicitação
GER-TILicardino Siqueira - Gerente de TI07/06/2019
GER-TIBruno Henrique de Oliveira - Chefe de Sistemas07/06/2019
Dono do processo
Área de NegócioResponsávelData da definição
GER-TILicardino Siqueira - Gerente de TI07/06/2019

Big data está no centro de sua transformação digital conduzida por dados. Segundo Bernard Marr, o termo Big Data se refere a nossa habilidade de coletar e analisar um grande volume de dados que estão sendo gerados ao redor do mundo. A proposta de uma solução de Big Data é oferecer uma abordagem consistente no tratamento do constante crescimento e da complexidade dos dados. Para tanto, o conceito considera os 5 V's do Big Data: o Volume, a Velocidade, a Variedade, a Veracidade e o Valor:

  • Volume: se refere a quantidade de dados gerados atualmente. Estima-se que em 2020, o volume total de dados digitais irá crescer para 50 zettabytes. É inviável o armazenamento e analise deste grande grande volume de dados utilizando as tecnologias de bancos de dados tradicionais. Com o advento das tecnologias de Big Data é possível processar este volume de dados em sistemas distribuídos, onde pedaços dos dados são armazenados em máquinas diferentes, permitindo assim alcançar a escalabilidade vertical de cada máquina com as arquiteturas multicore e a escalabilidade vertical de um cluster de computadores.
  • Velocidade: se refere a velocidade que os dados são gerados, armazenados, analisadas e processados. Esta característica não está ligada somente à geração dos dados a taxas crescentes, mas também ao processamento eficiente dos dados, ou seja, os dados devem ser analisados em um tempo viável. As tecnologias de Big Data permitem analisar os dados no instante em que são criados, sem ter de armazená-los em bancos de dados previamente.
  • Variedade: refere aos diferentes tipos de dados (estruturados, não-estruturados e semi-estruturados) que podem ser armazenados e processados. No passado, a maior parte dos dados era estruturada e podia ser colocada em tabelas e relações. Com as tecnologias de Big Data, mensagens, fotos, vídeos e sons, que são dados não-estruturados, podem ser administrados juntamente com dados estruturados.
  • Veracidade: se refere a fidedignidade dos dados. Com o grande volume de dados gerados atualmente, garantir a qualidade e acurácia dos dados se torna uma tarefa árdua, mas com análises e estatísticas de grandes volumes de dados é possível compensar as informações incorretas.
  • Valor: esse V é o que entrega valor ao usuário final, ou seja, é o que torna Big Data relevante. Para que um dado se converta em informação útil e utilizável é preciso o olho do analisador, é preciso colocar uma pergunta a esse dado que permita orientar a análise de dados para o objetivo da organização. Não é toda a informação que está circulando que é relevante ou útil para os objetivos específicos da organização.

A solução de Big Data do TCE consiste de uma arquitetura que permite que grandes volumes de dados sejam processados, de forma distribuída em várias máquinas, utilizando a infraestrutura de hardware interna do TCE. Diante do cenário complexo com várias ferramentas de Big Data, a plataforma Hortonworks HDP (com código 100% aberto) será utilizada para gestão de dados permitindo que o TCE gerencie todo o ciclo de vida dos dados. Com esta plataforma, o TCE poderá controlar, proteger e gerenciar dados de qualquer tipo, em qualquer escala. Esta plataforma irá permitir que o próprio TCE possa continuar desenvolvendo e mantendo suas soluções de Big Data sem a necessidade de licenciamento e compra da plataforma.

A plataforma HDP permite extrair todo o potencial dos dados armazenados no contexto de Big Data com os seguintes benefícios:

  • Aberta: a plataforma é composta por vários projetos da Apache Software Foundation (ASF) que permitem implantar, integrar e trabalhar com um grande volume de dados estruturados e não estruturados.
  • Interoperabilidade: a plataforma possui uma arquitetura 100% open-source que permite a interoperabilidade com uma vasta opção de data center e aplicações de business intelligence. A plataforma HDP reduz o esforço para integrar com a infraestrutura existente na organização.
  • Facilidade de gerenciamento: a plataforma HDP fornece um sistema de gerenciamento e monitoramento do cluster através de um único e simples painel. Com HDP, segurança e governança podem ser construídos dentro da plataforma. Essa funcionalidade fornece um ambiente que facilita a administração das ferramentas de acesso aos dados do ecossistema Big Data.

A plataforma HDP, apresentada na Figura abaixo, fornece diversas ferramentas que possibilitam construir aplicações e entregar análise dos dados para a tomada de decisão e criação de soluções inovadoras. Detalhes da arquitetura são apresentados na documentação da plataforma HDP. A arquitetura da plataforma pode ser dividida nas seguintes categorias:

  • Data management: a base dos componentes da plataforma HDP são o Apache Hadoop YARN e o Hadoop Distributed File System (HDFS). Enquanto o HDFS fornece um armazenamento de baixo custo, eficiente, escalável e tolerante à falhas para Big Data Lake, o YARN disponibiliza uma arquitetura que permite processar múltiplos workloads simultaneamente. YARN também fornece uma arquitetura expansível de gerenciamento de recursos para permitir a execução de uma grande variedade de métodos de acesso aos dados.
  • Data access: a plataforma HDP permite que os usuários possam interagir simultaneamente com os dados de formas diferentes. O YARN permite que vários métodos de acesso aos dados possam coexistir no mesmo cluster sobre o mesmo conjunto de dados. Essa funcionalidade evita que se criem 'silos de dados', criando um barramento único de acesso aos dados. A plataforma HDP permite que múltiplos motores de processamento de dados (por exemplo, execução de consultas SQL, processamento em tempo real de fluxo de dados e processamento em lote) possam compartilhar o mesmo barramento de dados.
  • Data Governance: as organizações estão buscando iniciativas de soluções no ecossistema Hadoop para os requisitos de governança dos dados e insights orientado aos dados. O gerenciamento da informação para permitir um controle efetivo dos dados é um requisito importante para as arquiteturas tradicionais e Big Data. Em resposta a esse desafio, o Data Governance Initiative (DGI), um consórcio de líderes da indústria, foi criado para lidar com a necessidade de uma solução open-source de gerenciamento dos dados, linhagem, segurança e gerenciamento do ciclo de vida dos dados. O Apache Atlas permite que as organizações possam manter os dados consistentes em todo o ecossistema Big Data.
  • Security: O Data Lake construído com o ecossistema Hadoop fornece uma base robusta para a construção de análises sobre os dados. É importante, entretanto, garantir a segurança dos dados para que as organizações possam extrair o máximo de valor de análises avançadas sem expor os dados para pessoas não autorizadas. O Apache Ranger fornece uma solução de administração da segurança para o Hadoop. Integrando o Atlas com o Ranger, a plataforma HDP permite que as organizações possam definir políticas dinâmicas, em tempo de execução, que proativamente ajuda a prevenir a ocorrência de violação da segurança, permitindo que as organizações implementem políticas de segurança dinâmicas. O Ranger permite que os administradores possam definir políticas de segurança baseada nas tags e atributos dos metadados do Atlas. Desta forma, é possível aplicar as políticas de segurança em tempo real para toda a hierarquia dos dados, incluindo banco de dados, tabelas e colunas.
  • Operations: a plataforma HDP foi projetado para permitir que os times de TI possam substituir os processos manuais de manutenção do ecossistema Hadoop em processos automatizados, pré-configurados e com controle total da operação. A plataforma HDP ajuda a simplificar a manutenção do cluster com motores de acesso com multiusuários, multitenant e multidata para gerenciar grandes escalas do cluster através de uma interface web interativa. A plataforma HDP utiliza o Ambari para provisionar, gerenciar, monitorar e manter a segurança do cluster Hadoop. Ambbari remove as tarefas manuais de manutenção que são suscetíveis a erro.

Documento Descrição
ETL Procedimento de extração, transformação, carga e modelagem de dados, que estejam disponíveis em um Dump de banco de dados e arquivos de transferência de dados tais como JSON, CSV, TXT, XLS, XLSX, XML, ODS entre outros, para a arquitetura de Big Data
Catálogo de dados Procedimento que disponibiliza o catálogo de dados armazenados na plataforma, nos moldes de um dicionário de dados
Validação dos dados Procedimento de validação dos dados a serem armazenados na plataforma, com a necessidade de incluir regras de negócio
Fluxo de dados Procedimento para tratar um fluxo de dados integrado com um ou mais sistemas
Instalação do docker Procedimentos para instalação do docker
Instalação da plataforma Procedimentos para instalação da plataforma
Instalação dos componentes na plataforma Procedimentos para instalação dos componentes na plataforma
Manutenção dos componentes Procedimentos para gerenciar os componentes da plataforma
Backup dos componentes Procedimentos para realizar o backup da plataforma
Execução de jobs python com o Oozie Procedimentos para execução de jobs python pelo Oozie
Tratamento de Alertas do Ambari Procedimentos para tratamento de alertas do Ambari
Sincronização entre o Ambari e AD Procedimentos sincronizar o AD com o Ambari
Ambari e AD - Procedimentos diversos Procedimentos diversos entre o AD e o Ambari
Jupyter Notebook Procedimentos do Jupyter Notebook
  • pres/gerti/processos_de_ti/big_data.txt
  • Última modificação: 11/03/2020 19:28
  • por erevoredo