Voltar para a lista de artigos Artigos
21 minutos de leitura

Como se tornar um engenheiro de Big Data

O que é um engenheiro de Big Data e qual a diferença entre seu conjunto de habilidades e o de um engenheiro de dados? Neste artigo, exploramos as ferramentas e plataformas que você precisará dominar como engenheiro de Big Data.

Para passar de um engenheiro de dados comum para um engenheiro de Big Data, você precisa adquirir várias habilidades novas e aprender a usar várias ferramentas novas. A boa notícia é que o Big Data ainda permite que você use suas boas e velhas habilidades em SQL para manipular e obter informações de repositórios de dados.

Mas, primeiro, por que você gostaria de mudar da engenharia de dados comum para a engenharia de Big Data? Vou explicar usando um exemplo.

Para transportar pequenos grupos de pessoas em distâncias curtas e sem muita pressa, você pode dirigir um ônibus. Mas se precisar transportar muitas pessoas por longas distâncias e em tempo mínimo, terá que aprender a pilotar um avião. Com certeza, será mais difícil. Você terá mais responsabilidades, mas isso lhe dará mais satisfação e você ganhará muito mais dinheiro.

Existe a mesma diferença entre o trabalho de um engenheiro de dados convencional e o de um engenheiro de Big Data.

O que é Big Data?

Como você deve imaginar, Big Data refere-se a conjuntos de dados enormes. A definição exata de "enorme" pode variar dependendo de quem você perguntar, mas é normal que os repositórios de Big Data contenham bem mais de 10 terabytes de dados. E é cada vez mais comum ouvir falar de volumes que atingem a ordem de petabytes (1 petabyte = 1.024 terabytes).

Mas o Big Data não se refere apenas a grandes volumes. Ele também inclui uma ampla variedade de dados (estruturados, semiestruturados e não estruturados) e altas velocidades de processamento e acesso. Essas qualidades são comumente chamadas de "os três Vs": volume, velocidade e variedade.

Geralmente, mais dois atributos são adicionados aos três Vs acima. "Veracidade", ou a confiabilidade dos dados, é importante para evitar informações incompletas, sujas (ou seja, cheias de erros) ou imprecisas. "Valor" refere-se à importância de extrair insights valiosos que possibilitem decisões informadas e gerem oportunidades de negócios.

As particularidades mencionadas acima significam que um engenheiro de Big Data deve usar estruturas especiais, além das ferramentas convencionais de engenharia de dados, como o SQL. Se você for um iniciante em SQL, pode começar fazendo um curso on-line sobre consultas SQL; se quiser dominar a linguagem, o caminho a seguir é seguir um curso completo de aprendizado de SQL que ensinará tudo o que você precisa.

Mais adiante neste artigo, discutiremos as principais tecnologias de Big Data. Por enquanto, vamos responder a outra pergunta: qual é a perspectiva de emprego para os engenheiros de Big Data?

Os engenheiros de Big Data estão sendo procurados

A boa notícia para os engenheiros de Big Data é que o crescimento do emprego em Big Data mostra números positivos. E a demanda por trabalhadores especializados em Big Data excede em muito a oferta. Como engenheiro de dados, você provavelmente conseguirá encontrar um emprego razoavelmente bem remunerado. Mas as oportunidades de trabalho em Big Data visam a salários muito mais altos; você pode apostar que o termo "Big Data" estará cada vez mais presente no futuro de todo engenheiro de dados.

Para se ter uma ideia, o Glassdoor indica que (em março de 2024), o salário base médio de um engenheiro de dados com um emprego tradicional em banco de dados nos Estados Unidos era de US$ 144,00 por ano. O salário base médio de um engenheiro de Big Data, também nos Estados Unidos, era de US$ 157.000 por ano. Esses números são apenas médias. O salário base anual de um engenheiro de Big Data pode chegar a US$ 197.000 e, se você tiver a sorte de conseguir um cargo de engenheiro de Big Data no Google ou na Apple, seu salário base poderá ser superior a US$ 230.000 por ano.

Tudo indica que as tendências salariais do Big Data continuarão a aumentar e a se afastar do nível salarial convencional da engenharia de dados.

Benefícios do Big Data

Se você se pergunta por que as empresas estão dispostas a pagar muito mais por um engenheiro de Big Data, a resposta é que elas também esperam muito mais em troca. O Big Data é mais do que apenas grandes conjuntos de dados - é uma ferramenta que cria informações de altíssimo valor, que podem dar às empresas uma vantagem decisiva em seus negócios ou gerar grandes avanços em seus objetivos. Para explicar por que, vamos dar uma olhada em alguns exemplos:

  • Negócios: O Big Data é uma ferramenta indispensável para entender o comportamento do consumidor e antecipar as tendências do mercado. A integração e a correlação de diferentes fontes de dados em massa - como detalhes de compras e solicitações de suporte, relatórios de crédito, atividades de mídia social e resultados de pesquisas - oferecem percepções de mercado que só podem ser obtidas por meio da coleta, do processamento e da análise de grandes quantidades de informações.
  • Saúde: O Big Data se tornou uma ferramenta vital para o setor de saúde. O monitoramento em tempo real de dados de sensores em pacientes internados e a análise de risco preditiva de pacientes que receberam alta são apenas dois exemplos das muitas aplicações do Big Data nessa área.
  • Governo: O Big Data é usado para identificar padrões de crime, otimizar o tráfego urbano e gerenciar crises ambientais. Ele também é usado para detectar fraudes na cobrança de impostos e refinar os programas de contato com o contribuinte.
  • Finanças: A detecção de fraudes é um dos principais usos do Big Data em finanças. Outros usos incluem a segmentação de clientes, a otimização de custos e a geração de modelos financeiros preditivos.
  • Mineração, petróleo e gás: o uso intensivo de ferramentas de Big Data para processar grandes volumes de informações sísmicas e microssísmicas oferece vantagens decisivas na exploração e descoberta de depósitos minerais e de petróleo.

O que faz um engenheiro de Big Data?

Um engenheiro de Big Data é basicamente um engenheiro de software que também deve ter um profundo conhecimento de engenharia de dados. Grande parte do trabalho de um engenheiro de Big Data envolve o projeto e a implementação de sistemas de software capazes de coletar e processar volumes gigantescos de dados. Muitos desses sistemas envolvem processos de ETL (Extract-Transform-Load), que usam conjuntos de regras de negócios para limpar e organizar os dados "brutos" (não processados) e prepará-los para armazenamento e uso em processos de análise e aprendizado de máquina (ML).

Outras tarefas de um engenheiro de Big Data incluem:

  • Projetar arquiteturas adequadas para lidar com grandes volumes de dados, alinhadas aos objetivos comerciais.
  • Investigar novos métodos para melhorar a qualidade e a segurança dos dados.
  • Criar soluções de dados com base em ecossistemas de Big Data (veja abaixo) e suas ferramentas de desenvolvimento e visualização.
  • Colaborar com analistas de dados, cientistas de dados e outros profissionais para fornecer acesso e visualizações dos resultados dos processos de Big Data. Há áreas de responsabilidade em comum entre esses profissionais, portanto, vale a pena fazer uma comparação entre o trabalho de um analista de dados e o de um engenheiro de dados.

Habilidades e ferramentas necessárias para se tornar um engenheiro de Big Data

Um engenheiro de Big Data deve ter um diploma de bacharel em um campo relacionado à tecnologia da informação (TI) ou à ciência de dados. Um mestrado em sistemas ou análise de Big Data pode ser de grande ajuda para conseguir cargos com salários mais altos e mais oportunidades de avanço na carreira. No final deste artigo, sugiro alguns caminhos de carreira para orientá-lo em seu caminho para se tornar um engenheiro de Big Data.

Além do diploma, os engenheiros de Big Data devem ter várias habilidades essenciais. É fundamental ter um conhecimento profundo de algoritmos, estruturas e determinadas linguagens de programação. Assim como um conhecimento básico de sistemas distribuídos.

Para trabalhar com grandes volumes de dados e fornecer acesso eficiente a seus insights, o engenheiro de Big Data precisa de habilidades e ferramentas muito mais diversificadas do que um engenheiro de dados convencional. Um engenheiro de dados convencional pode muito bem fazer carreira conhecendo apenas SQL e gerenciando os sistemas de gerenciamento de banco de dados mais populares.

(A propósito, se você planeja conseguir um emprego como programador de SQL, prepare-se para o teste de avaliação de SQL. Talvez você queira manter nossa folha de dicas básicas de SQL à mão quando não se lembrar dos detalhes de um comando SQL específico).

Além de ter habilidades em SQL para Big Data, um engenheiro de Big Data deve ter conhecimento sobre bancos de dados NoSQL, dados estruturados e não estruturados, data warehouses (e suas variantes, como data marts e data lakes) e algo conhecido como estruturas de Big Data. Vamos ver como cada uma dessas habilidades influencia o trabalho diário de um engenheiro de Big Data.

Big Data, SQL e bancos de dados relacionais

A Structured Query Language (SQL) nasceu com os bancos de dados relacionais e está intimamente ligada a eles. Todo profissional com certificações convencionais em engenharia de dados sabe que os bancos de dados relacionais são projetados com o objetivo principal de armazenar informações estruturadas e priorizar a preservação da integridade dos dados no processamento de transações. Isso os torna inadequados quando as prioridades passam a ser a escalabilidade, a velocidade de acesso e os fluxos em tempo real - que é o que acontece quando se passa dos bancos de dados convencionais para os repositórios de Big Data.

Isso significa que aprender a trabalhar com bancos de dados SQL terá sido em vão quando você se tornar um engenheiro de Big Data? Absolutamente não. Os engenheiros de Big Data continuarão a usar SQL na análise de dados por muitos anos.

Portanto, o futuro da linguagem SQL é brilhante. Ela é tão difundida que se tornou um padrão de fato para o gerenciamento de dados - grandes ou pequenos. As novas tecnologias criadas especialmente para Big Data não podem ignorar esse fato. É por isso que todas elas oferecem ferramentas de acesso a dados que permitem visualizar repositórios de Big Data como se eles tivessem uma estrutura de banco de dados relacional. A seguir, veremos algumas das tecnologias baseadas em SQL usadas em ambientes de Big Data.

Bancos de dados NoSQL

O NoSQL (que significa "não apenas SQL") é uma família de tecnologias de banco de dados que visa a superar as limitações dos bancos de dados relacionais e permitir a velocidade, o volume e a variedade do Big Data explicados acima. É por isso que muitas vezes eles são preferíveis aos bancos de dados relacionais para a implementação de soluções de Big Data.

Embora os bancos de dados NoSQL variem em suas formas de implementação, todos eles têm algumas características em comum:

  • Sem esquema: Os bancos de dados NoSQL podem armazenar informações sem a necessidade de predefinição da estrutura de dados, ao contrário dos bancos de dados relacionais, em que o esquema (tabelas e seus relacionamentos) deve ser definido antes de ser preenchido com informações.
  • Escalabilidade: Várias arquiteturas de banco de dados NoSQL são projetadas tendo como objetivo principal a escalabilidade horizontal. Isso significa que um banco de dados NoSQL pode residir em um sistema de arquivos distribuídos (como o Hadoop Distributed File System) que pode aumentar o volume de dados simplesmente adicionando mais nós a ele.
  • Em tempo real: Várias implementações de bancos de dados NoSQL (por exemplo, Firebase, Redis ou DynamoDB) se destacam por seu alto desempenho, escalabilidade e disponibilidade; isso satisfaz as necessidades básicas de qualquer aplicativo de dados em tempo real.

Apesar do nome, os bancos de dados NoSQL usam dialetos SQL, reforçando a ideia de que o SQL ainda é relevante mesmo quando os bancos de dados relacionais não são usados.

Armazenamento de dados

Os data warehouses surgiram há várias décadas como uma forma de coletar informações e centralizá-las para processamento analítico. Eles têm algumas semelhanças com o Big Data: ambas as tecnologias são projetadas para armazenar grandes volumes de dados e garantir a veracidade das informações. Elas também garantem que o valor comercial seja obtido a partir desses grandes volumes de informações.

A diferença entre o Big Data e o data warehousing está no fato de que os data warehouses são projetados para serem construídos com base em esquemas relacionais e alimentados com informações provenientes de sistemas transacionais (que também são baseados em bancos de dados relacionais). Eles não estão preparados para lidar com informações não estruturadas e menos ainda para lidar com dados em tempo real.

Embora o Big Data seja uma tecnologia mais moderna e abrangente do que um data warehouse, este último não desaparecerá nem se tornará obsoleto. Ambas as tecnologias são complementares e resolvem casos de uso diferentes; se você precisar realizar o processamento analítico de dados estruturados (por exemplo, informações sobre vendas ou produção), um data warehouse é a solução mais recomendável. Por outro lado, suponha que você precise realizar o processamento analítico de informações variadas e não estruturadas, como e-mails, dados de redes sociais, logs de aplicativos em tempo real ou resultados de pesquisas. Nesse caso, você definitivamente deve buscar uma solução de Big Data.

Há também tecnologias de data warehouse que operam em repositórios de Big Data, preenchendo a lacuna entre as duas tecnologias. Uma das mais populares é a DBT, uma ferramenta de modelagem/análise de dados que se integra aos provedores de dados em nuvem e executa a transformação de dados no data warehouse.

Plataformas e estruturas de Big Data

Nos bancos de dados relacionais, há uma entidade central chamada sistema de gerenciamento de banco de dados relacional ou RDBMS que reside em um servidor e gerencia as informações armazenadas em bancos de dados com estruturas predefinidas (esquemas). O RDBMS fornece mecanismos para consultar e atualizar as informações que residem nos bancos de dados, principalmente por meio de comandos SQL. Todas as responsabilidades de armazenamento e utilização de dados recaem sobre o RDBMS monolítico.

No Big Data, as responsabilidades são distribuídas entre diferentes entidades que são responsáveis pelo armazenamento, processamento, coordenação e exploração dos dados. Há pouco mais de uma década, esse conceito foi materializado pela Apache Software Foundation em um ecossistema chamado Hadoop.

A parte fundamental de qualquer ecossistema de Big Data (e do Hadoop em particular) é um sistema de arquivos capaz de armazenar grandes quantidades de informações. Esse sistema de arquivos não pode depender de uma única unidade de armazenamento físico. Em vez disso, ele usa vários nós capazes de trabalhar em coordenação para oferecer escalabilidade, redundância e tolerância a falhas. No Hadoop, esse sistema de arquivos é chamado de HDFS (Hadoop Distributed File System).

O tratamento de quantidades tão grandes de informações requer um modelo de agendamento baseado em tarefas capazes de serem executadas em paralelo. Sua execução é distribuída entre vários nós de processamento. No Hadoop, esse modelo de programação é chamado MapReduce e é baseado na tecnologia Java.

Com tantos nós de armazenamento e processamento, há uma peça que não pode faltar: um coordenador ou orquestrador para manter a ordem no ecossistema de Big Data e garantir que cada tarefa tenha os recursos de que precisa. No Hadoop, essa peça é chamada de YARN (Yet Another Resource Negotiator).

Em qualquer ecossistema de Big Data, essas três partes básicas - armazenamento, processamento e coordenação - são complementadas com ferramentas que possibilitam a exploração dos dados que residem no ecossistema. Muitas dessas ferramentas foram projetadas para serem executadas sobre o Hadoop, complementando o ecossistema e melhorando algumas de suas deficiências.

Como observação lateral, vale a pena mencionar que o Hadoop é a plataforma de Big Data mais "veterana"; ele foi superado em vários aspectos por ferramentas mais novas e mais eficientes. Um dos principais aspectos negativos do Hadoop que outras tecnologias tentaram resolver é sua alta complexidade e os custos de instalação, operação, ajuste e dimensionamento.

Como pilotar uma plataforma de Big Data

Vamos voltar ao conceito de motorista de ônibus e piloto de avião do início deste artigo. Se você é um engenheiro de dados convencional, provavelmente está acostumado a começar cada dia de trabalho abrindo seu cliente SQL favorito, conectando-se aos bancos de dados com os quais precisa trabalhar e executando comandos SQL. É quase como se o motorista do ônibus girasse a chave para ligar o motor, abrisse a porta para os passageiros embarcarem e os transportasse até o seu destino.

Mas se você é um engenheiro de Big Data, está no comando de um ecossistema de dados gigantesco. Os dados e os processos são distribuídos em centenas ou milhares de nós que devem ser cuidadosamente coordenados para agregar valor aos usuários. Pense como um piloto de avião: antes de abrir as portas para os passageiros embarcarem e iniciarem a viagem, você deve garantir que vários sistemas estejam totalmente operacionais e funcionando de forma coordenada. A vida de seus passageiros e a sua própria dependem disso.

Tem certeza de que deseja seguir o caminho do piloto de avião?

No Cockpit

Se você ainda está lendo isto, imagino que tenha respondido sim à pergunta anterior. Parabéns! Vamos ver o caminho a seguir para que você possa se tornar o piloto de uma máquina de Big Data.

Em seu cockpit, você poderá encontrar uma grande quantidade e variedade de ferramentas criadas para a exploração de dados em repositórios de Big Data. Vejamos apenas uma delas, chamada Hive. É uma estrutura que permite que você manipule facilmente grandes quantidades de dados com uma linguagem de consulta chamada HQL (HiveQL), que é baseada em SQL. Em particular, o HQL converte comandos SQL em trabalhos de MapReduce para que possam ser executados em um cluster do Hadoop.

A linguagem de consulta do Hive tem muitas semelhanças com o SQL padrão. Além do comando SELECT com todas as suas cláusulas (WHERE, GROUP BY, ORDER BY, LIMIT etc.), ela suporta comandos DML (como INSERT, UPDATE e DELETE) e comandos DDL (como CREATE, ALTER e DROP) para gerenciar um esquema de pseudo-tabela.

Quando um comando é executado no Hive, como qualquer SELECT ... FROM ..., o Hive não retorna os resultados imediatamente. Em vez disso, ele envia um trabalho de MapReduce para o YARN. O YARN garante que o trabalho tenha os recursos necessários (processamento, armazenamento, memória) e o coloca na fila para execução. O Hive aguarda até que o trabalho seja concluído antes de enviar os resultados da consulta de volta para você. Para você, será como se tivesse executado esse SELECT no seu cliente SQL favorito. Mas, por baixo, havia todo um gigantesco maquinário atendendo a essa simples solicitação.

Ferramentas e plataformas de Big Data

Já dissemos que o Hadoop é uma plataforma mais antiga e que foi superada por outras mais modernas e eficientes. Isso não significa que o Hadoop seja obsoleto.

O lado bom do Big Data é que suas tecnologias nasceram no mundo do código aberto, portanto a evolução dos ecossistemas de Big Data é rápida e constante. Além de várias empresas de grande porte, há comunidades de desenvolvedores responsáveis por impulsionar essa evolução, construindo sobre as soluções existentes e melhorando-as e complementando-as constantemente.

A seguir, apresentamos algumas das ferramentas e tecnologias que estão surgindo como as apostas de aprendizado mais seguras para se firmar na engenharia de Big Data.

Spark

Spark surgiu em 2014 para resolver as limitações de desempenho do MapReduce. Sua principal otimização foi a capacidade de ser executado em clusters na memória em vez de armazenar os resultados em disco.

Spark é compatível com várias linguagens comuns (Python, Java, Scala e R) e inclui bibliotecas para uma variedade de tarefas, de SQL a streaming e aprendizado de máquina. Ele pode ser executado em um laptop ou em um cluster com milhares de servidores. Isso facilita o início com uma implementação pequena e o aumento da escala para o processamento massivo de dados em uma ampla gama de aplicativos.

Embora o Spark tenha sido projetado para ser executado em vários gerenciadores de cluster, historicamente ele foi usado principalmente com o YARN e integrado à maioria das distribuições do Hadoop. Ao longo dos anos, houve várias iterações importantes do Spark. Com o surgimento do Kubernetes como um mecanismo de agendamento popular, o Spark agora se tornou um cidadão de primeira classe do Kubernetes e recentemente removeu sua dependência do Hadoop.

Para o usuário, o Apache Spark expõe um ecossistema de componentes adaptados a diferentes casos de uso. O componente principal é o Spark Core, o mecanismo de execução da plataforma Spark que fornece a infraestrutura para computação na memória, bem como funções básicas de E/S, agendamento, monitoramento e gerenciamento de falhas. Em torno do Spark Core há componentes com funções mais específicas, como Spark SQL, Spark Streaming, MLlib, SparkR e GraphX.

Flink

Apache Flink é um mecanismo de processamento de dados de alta taxa de transferência e baixa latência que prioriza a computação na memória, a alta disponibilidade, a eliminação de pontos únicos de falha e a escalabilidade horizontal. O Flink fornece algoritmos e estruturas de dados para dar suporte ao processamento limitado e ilimitado, tudo por meio de uma única interface de programação. Os aplicativos que processam dados ilimitados são executados continuamente, enquanto os que processam dados limitados encerram sua execução quando consomem todos os dados de entrada.

Storm

Apache Storm facilita o processamento confiável de fluxos ilimitados de dados, fazendo para o processamento em tempo real o que o Hadoop fez para o processamento em lote. Suas principais qualidades são a simplicidade, a capacidade de ser usado com qualquer linguagem de programação e uma abordagem amigável ao desenvolvedor para a manipulação de dados.

Os casos de uso do Storm incluem análise em tempo real, aprendizado de máquina on-line, computação contínua, RPC (chamadas de procedimento remoto) distribuídas e ETL. Ele está entre os mecanismos de execução de Big Data mais rápidos, ultrapassando 1 milhão de tuplas processadas por segundo por nó. Suas outras qualidades incluem alta escalabilidade, tolerância a falhas, processamento de dados garantido e facilidade de configuração e uso.

Cassandra

Apache Cassandra é um banco de dados NoSQL orientado a colunas, especialmente projetado para Big Data. Graças ao uso de armazenamento de colunas amplas, ele é capaz de lidar com grandes quantidades de dados por meio de clusters de servidores de commodities, fornecendo alta disponibilidade sem pontos únicos de falha.

O Cassandra emprega uma arquitetura peer-to-peer que facilita a distribuição de dados, permitindo que ele seja dimensionado horizontalmente e lide facilmente com quantidades crescentes de dados e tráfego. Além disso, ele oferece consistência escalonável, o que significa que os clientes podem escolher o nível exato de consistência de que precisam para cada operação.

Pig

Apache Pig é uma plataforma de alto nível usada para criar programas MapReduce executados sobre o Hadoop. Ele usa uma linguagem de script simples chamada Pig Latin. Essa linguagem permite que os desenvolvedores escrevam tarefas complexas de processamento de dados de forma concisa e simples, abstraindo-as das complexidades do MapReduce e oferecendo algumas semelhanças com o SQL.

Os desenvolvedores podem ampliar a funcionalidade do Pig Latin com UDFs (funções definidas pelo usuário) que podem ser escritas em outras linguagens, como Java, Python, JavaScript ou Ruby. O mecanismo Pig traduz os scripts do Pig Latin em uma série de tarefas MapReduce que podem ser executadas em clusters do Hadoop, o que lhes permite lidar com grandes quantidades de dados.

BigQuery

O BigQuery é um data warehouse em escala de petabytes, de baixo custo e sem servidor que faz parte do Google Cloud Platform. É um serviço totalmente gerenciado, o que significa que seus usuários não precisam se preocupar com recursos de armazenamento, processamento ou rede.

Desde seu lançamento em 2010, o Google Big Query ganhou adeptos em organizações que precisam analisar rapidamente grandes quantidades de informações e comparar seus resultados com dados estatísticos disponíveis publicamente. Atualmente, muitas organizações exigem habilidades em BigQuery de seus candidatos a empregos na área de dados.

Uma parte importante do BigQuery são suas funções de janela, também chamadas de funções analíticas ou funções OVER; elas fazem parte do padrão SQL desde 2003. Aprender a usar as funções de janela no Google BigQuery é um recurso importante para um analista de dados ou função semelhante. Aqui estão alguns recursos úteis:

Seus próximos passos para se tornar um engenheiro de Big Data

Como discutimos anteriormente, a maioria dos engenheiros de dados tem pelo menos um diploma de bacharel em uma área de TI ou de dados. Em seguida, você pode fazer um mestrado em Big Data, escolhendo uma das dezenas disponíveis on-line. Centenas de cursos e certificações de Big Data também estão disponíveis, muitos deles fornecidos diretamente por empresas de tecnologia, como Google ou IBM. O mais importante é que muitos deles são gratuitos.

Também é uma boa ideia manter seus conhecimentos de SQL atualizados e, para isso, recomendo que você aproveite nosso pacoteIlimitado Vitalício SQL Package. Ele permite o acesso a todos os cursos atuais e futuros da LearnSQL.com.br, o que garante seu conhecimento dos principais dialetos do SQL e oferece milhares de exercícios práticos interativos.

Depois de ter conhecimento básico de Big Data - mesmo que ainda não tenha obtido diplomas e certificações suficientes para preencher seu currículo - você pode começar a acumular experiência trabalhando em projetos reais de Big Data. Para fazer isso, você precisará de grandes repositórios de Big Data, e isso não é algo que você possa construir por conta própria. Felizmente, há muitos conjuntos de Big Data de uso gratuito que você pode usar para colocar seu conhecimento em prática.

O mundo do Big Data está em constante evolução, portanto, não pense que você pode sentar e relaxar depois de acumular diplomas, certificações e horas de prática suficientes. Você precisará se manter atualizado, lendo blogs, seguindo influenciadores de Big Data e participando ativamente de comunidades de entusiastas de Big Data. Quem sabe - talvez você mesmo se torne um guru de dados que ajude o mundo a fazer melhor uso das quantidades gigantescas de informações que circulam em suas redes!