Voltar para a lista de artigos Artigos
11 minutos de leitura

SQL e descontração: 5 conjuntos de dados divertidos para praticar em uma sexta-feira à noite

Cansado dos conjuntos de dados de prática entediantes que fazem o SQL parecer um trabalho? Relaxe e aprimore suas habilidades com cinco conjuntos de dados divertidos e peculiares que fazem com que aprender SQL pareça mais uma brincadeira.

É sexta-feira à noite. Você não está com vontade de sair, não há mais nada de bom para transmitir e seu cérebro está ansioso por algo um pouco mais satisfatório do que rolar a tela do celular. Então, você liga o laptop, abre o editor SQL e se acomoda para um tipo diferente de relaxamento.

SQL - Structured Query Language (Linguagem de Consulta Estruturada) - é a linguagem que alimenta os dados. Ela ajuda você a extrair insights de tabelas enormes, identificar padrões e responder a perguntas como "Qual é o nosso produto mais vendido este mês?" ou "Qual cobertura de pizza é a verdadeira favorita do público?" A SQL está em toda parte - nos negócios, na tecnologia, no marketing - e no seu futuro, se você for um pouco curioso em relação aos dados.

Mas a questão é a seguinte: aprender SQL não se trata de memorizar comandos. Trata-se de prática. Escrever consultas, executá-las, corrigi-las quando elas falharem e comemorar aqueles pequenos momentos de "a-ha" quando os resultados finalmente fazem sentido. Isso significa que a prática não precisa parecer um dever de casa!

Para provar isso, reunimos cinco conjuntos de dados divertidos, estranhos e simplesmente interessantes para ajudá-lo a aprimorar suas habilidades em SQL e, ao mesmo tempo, aproveitar o processo. Pense menos em um banco de dados de RH corporativo, mais em avistamentos de OVNIs e classificações de filmes.

E se você quiser manter o ritmo, confira a trilhaTrilha de Práticas em SQL no LearnSQL.com. É um caminho de aprendizado interativo criado para qualquer pessoa que queira parar de ler sobre SQL e começar a fazer isso.

Vamos nos divertir com o SQL.

Conjunto de dados de filmes da IMDb

O que há no conjunto de dados? Os conjuntos de dados não comerciais da IMDb dão acesso a uma ampla gama de informações relacionadas a filmes, perfeitas para serem exploradas com SQL. O conjunto de dados inclui várias tabelas vinculadas (no formato TSV) que abrangem:

  • Informações básicas sobre filmes: Títulos, anos de lançamento, gêneros, tempo de execução e se é um filme, curta ou episódio de TV.
  • Dados de classificação: Média de classificações de usuários e número de votos por título.
  • Detalhes da equipe: Diretores e roteiristas ligados a cada filme.
  • Informações sobre o elenco: Principais atores e atrizes e seus papéis.
  • Perfis de pessoas: Nomes, anos de nascimento, profissões e trabalhos notáveis.

Onde obter: https://developer.imdb.com/non-commercial-datasets/

Que conceitos de SQL você pode praticar? O IMDb oferece um conjunto de dados relacionais com complexidade do mundo real. Ele é ideal para praticar junções, filtros, agrupamentos e muito mais, enquanto você mergulha no mundo dos filmes.

  • SELECT WHEREO IMDb oferece um conjunto de dados relacionais com complexidade real e ideal para praticar junções, agrupamentos e muito mais enquanto se mergulha no mundo dos filmes.
  • ORDER BY para classificar filmes por classificação ou popularidade
  • GROUP BY e funções de agregação (como AVG(), COUNT())
  • LIMIT para encontrar os principais resultados
  • Filtragem com IN, BETWEEN, e LIKE

Ideias de consultas divertidas:

  • Quais são as 10 comédias mais bem avaliadas lançadas depois de 2010?
  • Quem é o diretor mais consistente, produzindo sucesso após sucesso sem muitos fracassos?
  • Quais sequências de comédias têm classificação mais alta do que a original?
  • Quais atores apareceram nos filmes mais bem avaliados (por exemplo, classificação IMDb > 8)?
  • Quais são os filmes mais longos já feitos (e eles valeram a pena)?

Nível de habilidade recomendado: Iniciante a intermediário. Ótimo para praticar as principais habilidades de SQL com dados do mundo real.

Conjunto de dados dos episódios dos Simpsons

O que há no conjunto de dados? Os Simpsons é a sitcom animada de maior duração da história da TV, conhecida por seus personagens peculiares, humor afiado e comentários sociais surpreendentemente profundos. Esse conjunto de dados captura a essência do programa em mais de 600 episódios, oferecendo a você uma maneira estruturada de explorar Springfield por meio de dados.

O conjunto de dados inclui várias tabelas vinculadas:

  • Episódios - Títulos, datas de exibição, temporadas, números de episódios e descrições curtas.
  • Personagens - Todos os personagens, desde a família Simpson até os habitantes obscuros da cidade, têm uma identificação exclusiva.
  • Locais - Locais apresentados no programa, como a Taverna do Moe, a Escola Primária de Springfield e o Kwik-E-Mart.
  • Linhas do roteiro - Mais de 150.000 linhas de diálogo, com informações sobre quem disse o quê, em que episódio e onde aconteceu.

Onde obter: https://www.kaggle.com/datasets/prashant111/the-simpsons-dataset

Quais conceitos de SQL você pode praticar?

  • Junção de várias tabelas (personagens, episódios, locais, linhas de roteiro)
  • Filtragem de texto com LIKE e LOWER()
  • Contagem e agrupamento com GROUP BY e COUNT()
  • Encontrar valores exclusivos com DISTINCT
  • Análise de aparências de personagens com ORDER BY e LIMIT

Ideias de consultas divertidas:

  • Qual temporada dos Simpsons tem o maior número de episódios?
  • Quem fala mais: Bart ou Lisa?
  • Existem personagens que só aparecem em um episódio?
  • Quais são os 5 locais mais usados na série?
  • Quais são as 10 palavras que Homer mais usa?

Nível de habilidade recomendado: Intermediário. Esse conjunto de dados é ideal se você se sentir confortável com junções e estiver pronto para experimentar dados de texto e consultas em várias tabelas em um ambiente divertido.

Banco de dados LEGO

O que há no conjunto de dados? Esse conjunto de dados foi criado tanto para os amantes de peças quanto para os exploradores de dados. Ele abrange décadas de conjuntos oficiais da LEGO, rastreando tudo, desde peças minúsculas até grandes coleções temáticas. Os dados são organizados em tabelas relacionais, permitindo que você explore como os conjuntos LEGO são construídos e catalogados. As tabelas incluem:

  • Conjuntos - Cada conjunto LEGO com seu nome, ano de lançamento, tema e número de peças.
  • Peças - Cada peça individual, com números de peças, nomes e categorias.
  • Cores - Uma lista completa de cores de peças LEGO disponíveis, incluindo valores RGB.
  • Inventários - Quais peças aparecem em quais conjuntos e em que quantidade.
  • Inventário de peças - Conecta conjuntos, peças e cores - perfeito para explorar como os conjuntos são construídos.
  • Temas - O tema ao qual cada conjunto pertence (por exemplo, Star Wars, Technic, City).

É um conjunto de dados lúdico, mas rico, ideal para consultar relacionamentos do mundo real e mergulhar no mundo colorido da LEGO a partir de uma perspectiva de banco de dados.

Onde obtê-lo:

Quais conceitos de SQL você pode praticar?

  • Multi-table JOINs (por exemplo, conectar conjuntos, peças, inventários e cores)
  • Filtragem com WHERE, IN, e BETWEEN
  • Agregação com GROUP BY, COUNT(), e SUM()
  • Classificação com ORDER BY e limitação de resultados com LIMIT
  • Exploração de hierarquias (por exemplo, temas dentro de temas)

Ideias de consultas divertidas:

  • Qual conjunto LEGO tem o maior número de peças?
  • Quais são as 5 cores mais comuns de peças LEGO? Quais são as 5 menos comuns?
  • Em que ano foi lançado o maior número de novos conjuntos LEGO?
  • Há alguma peça que aparece em apenas um conjunto?
  • Quais temas têm a maior contagem média de peças por conjunto?
  • Quais temas LEGO são os mais coloridos (ou seja, com base no número de cores diferentes de peças usadas)?

Nível de habilidade recomendado: Intermediário. É perfeito se você já domina o básico e quer se sentir confortável trabalhando com várias tabelas relacionadas.

Avistamentos de OVNIs

O que há no conjunto de dados? Esse conjunto de dados peculiar e único captura milhares de relatos de avistamentos de OVNIs do século XX, conforme coletados pelo National UFO Reporting Center (NUFORC). Cada registro inclui a data e a hora do avistamento; a cidade, o estado e o país onde ocorreu; a forma relatada do OVNI; por quanto tempo ele ficou visível e até mesmo a descrição do evento feita pela testemunha. Com mais de 80.000 registros - completos com coordenadas - é o playground perfeito para qualquer pessoa curiosa sobre luzes misteriosas no céu e o que os dados dizem sobre elas.

Onde obter: https://www.kaggle.com/datasets/NUFORC/ufo-sightings

Quais conceitos de SQL você pode praticar?

  • Filtragem por data, hora e texto usando WHERE, LIKE, e BETWEEN
  • Agregações com COUNT(), AVG(), e GROUP BY
  • Classificação com ORDER BY
  • Trabalho com dados geográficos (cidades, estados, países)
  • Ideias básicas de limpeza de dados (por exemplo, filtragem de entradas incompletas ou discrepantes)

Ideias de consultas divertidas:

  • Qual estado dos EUA teve o maior número de avistamentos de OVNIs na década de 1990?
  • Quais são as formas mais comuns de OVNIs relatadas ao longo do tempo?
  • Há meses específicos com mais avistamentos do que outros?
  • Qual é a duração média de um avistamento por tipo de forma?
  • Quais cidades são "hotspots" de OVNIs com base no número de relatos?

Nível de habilidade recomendado: Iniciante a intermediário. Esta é uma ótima opção se você se sente confortável com a filtragem e o agrupamento e deseja explorar dados baseados em tempo e localização com um toque divertido.

Seu próprio Netflix embrulhado

O que há no conjunto de dados? Esse conjunto de dados é um pouco diferente porque é seu. Ao contrário da maioria dos conjuntos de dados públicos, este vem diretamente de sua própria conta da Netflix. Em Netflix Wrapped With SQL, mostramos exatamente como fazer o download do seu histórico pessoal de visualização e transformá-lo em algo que você pode explorar com SQL.

Muitas plataformas de streaming, como Netflix e Spotify, permitem que você acesse seus próprios dados. É uma ótima maneira de aprender SQL com algo a que você já está conectado.

O arquivo de histórico de visualização da Netflix inclui duas colunas principais:

  • Título - O nome do filme ou episódio que você assistiu.
  • Data - A data exata em que você assistiu.

Simples, mas poderoso. Com apenas essas informações, você pode analisar seus hábitos de visualização, identificar padrões ao longo do tempo e até mesmo responder a perguntas que você não sabia que tinha sobre seu próprio tempo de tela.

Onde obter: Siga as instruções em nosso artigo anterior Netflix Wrapped With SQL.

Quais conceitos de SQL você pode praticar?

  • Filtrar por data e título usando WHERE, LIKE, e BETWEEN
  • Agregação com COUNT(), MAX(), AVG() e GROUP BY para analisar os hábitos de visualização
  • Classificar resultados com ORDER BY para encontrar os programas mais assistidos ou os dias mais movimentados
  • Trabalhar com funções de data/hora para extrair meses ou dias da semana ou para calcular intervalos de tempo
  • Limpeza e formatação básica de texto usando funções de string como SUBSTRING() ou TRIM() para nomes de séries e episódios

Ideias de consultas divertidas:

  • De qual série de TV você assistiu a mais episódios?
  • Em que mês você assistiu a mais conteúdo na Netflix?
  • Em que dia da semana você costuma clicar em "Play"?
  • Quais gêneros você mais assiste (se os dados de gênero estiverem disponíveis)?
  • Em média, com que frequência você assiste a algo - todos os dias, a cada poucos dias ou apenas nos fins de semana?

Nível de habilidade recomendado: Iniciante a intermediário. Esse curso é ideal para quem está familiarizado com operações básicas de SQL e deseja aplicar suas habilidades a dados personalizados do mundo real.

Bônus: nosso curso Trilha de Práticas em SQL Datasets

Quer ter a liberdade de explorar o SQL por conta própria, mas com bancos de dados prontos para uso e bem organizados? O curso Trilha de Práticas em SQL Conjuntos de dados em LearnSQL.com.br lhe dá acesso a uma variedade de bancos de dados realistas de lojas on-line, universidades, museus e plataformas de música. Ao contrário dos cursos típicos com tarefas passo a passo, este permite que você se movimente livremente. Você explorará as estruturas de banco de dados por conta própria, criará suas próprias perguntas e escreverá consultas para respondê-las.

Os bancos de dados do curso incluem:

  • Um sistema universitário (alunos, cursos, notas)
  • Uma loja de comércio eletrônico (pedidos, produtos, clientes)
  • Análise de blog (visualizações de página, comportamento do usuário)
  • Uma loja de música digital (artistas, álbuns, compras de faixas)
  • O Museu de Arte Moderna (obras de arte e artistas)

É perfeito para praticar junção, agrupamento, filtragem e escrever SQL do mundo real, sem precisar configurar nada.

Confira o curso em: Trilha de Práticas em SQL Datasets em LearnSQL.com

Pronto para SQL e Chill?

Praticar SQL não precisa parecer trabalho - e definitivamente não precisa envolver bancos de dados de funcionários chatos. Se você gosta de filmes, avistamentos de OVNIs, conjuntos de LEGO ou seu próprio histórico na Netflix, há um conjunto de dados que pode fazer com que o aprendizado pareça uma brincadeira.

Portanto, da próxima vez que tiver uma noite tranquila, tente executar algumas consultas peculiares em vez de apenas rolar a tela. Quem sabe - você pode descobrir uma nova maneira favorita de relaxar.

E se você quiser praticar ainda mais, confira nossa trilhaTrilha de Práticas em SQL . Suas futuras habilidades em SQL (e seu currículo) agradecerão.