Ainda existem grandes dados sem usar o Hadoop? Quais são alguns exemplos?

Hadoop não é sinônimo de Big Data, embora seja central para muitas soluções.

Os bancos de dados NoSQL, como Cassandra, Couchbase, Readis e MongoDB (entre outros), são escaláveis ​​para conjuntos de dados com vários petabytes (ou maiores).

Da mesma forma, os bancos de dados MPP (Massively Parallel Processing) como Vertica, Greenplum, VoltDB e Pentaho são produtos de Big Data que funcionam mais como bancos de dados relacionais tradicionais para cargas de trabalho específicas.

Existem alguns temas comuns comuns a todas as soluções de Big Data, que os diferenciam das soluções tradicionais de processamento de dados:

  • Aplicabilidade restrita: um RDBMS tradicional é amplamente aplicável, pois pode lidar com uma ampla variedade de casos de uso razoavelmente bem (cargas de trabalho OLTP e OLAP mistas do IE). Os produtos de Big Data são otimizados para um caso de uso específico e tratam mal outros casos de uso. Como conseqüência, as soluções de Big Data do mundo real freqüentemente usam vários produtos para resolver diferentes partes do problema.
  • Processo de distribuição. O Big Data baseia-se na idéia de distribuir a carga em um grande número de máquinas (geralmente de baixo custo), em vez de em um pequeno número de máquinas de última geração. Isso se presta naturalmente a otimizações de espaço por tempo, algoritmos de dividir e conquistar, e nos permite usar estratégias simples de força bruta de maneira econômica e econômica. As soluções de big data lutam com tarefas que não podem ser facilmente paralelizadas.
  • Escalabilidade linear. Essa é uma consequência natural do modelo de processamento distribuído. Entre outras coisas, isso permite um crescimento incremental da capacidade para atender aos requisitos atuais de armazenamento / capacidade, em vez de precisar provisionar um sistema com base no pico de uso projetado, com meses ou anos de antecedência. Ele também torna a curva preço / desempenho plana: 2x capacidade custa 2x dólares, enquanto que com as soluções RDBMS tradicionais, obter 2x capacidade pode facilmente custar 10x mais quando você chega ao mercado.

Sim. Os cientistas vêm realizando experimentos de big data nas últimas décadas em clusters e supercomputadores usando técnicas como openMP, MPI, openCL etc. no Fortran / C / C ++ / Python. Só que eles não seguiram em frente e se classificaram como especialistas em “big data”, como pessoas “corporativas”. O CERN, por exemplo, processa mais dados que 90% dos usuários do Hadoop usando suas estruturas personalizadas, eu acho.
O Hadoop é bom para resolver um tipo específico de problemas, mas não é a única maneira de lidar com big data. É rápido sair do lugar para o tipo de problemas para os quais não é exatamente bom. O Spark, um sistema de computação em cluster está rapidamente se tornando popular (ultrapassando o hadoop) para Machine Learning e outros problemas intensivos em computação em dados distribuídos.
Existem centenas de softwares personalizados que lidam com o problema de 3Vs de big data de diferentes maneiras.

Não há tempo para escrever uma resposta completa, mas veja aqui por exemplo:
D é para Ciência de Dados
Orador do DConf 2015: Andy Smith
Adam Drake –

“As ferramentas de linha de comando podem ser 235x mais rápidas que o cluster do Hadoop”

(O que você define como grande pode depender do seu domínio)

Também – veja versões de código nativo do hadoop: mapreduce para C:
MapReduce para C: executar código nativo no Hadoop