Прежде всего, чтобы избежать путаницы, надо определится, идёт ли речь о Big Datа или о Data Science. К сожалению, многие часто смешивают эти два понятия. Big Data — это набор в значительной степени инженерных технологий и продуктов для сбора, хранения и «преобразования» больших объёмов данных. В то время как Data Science — это методики и алгоритмы извлечения знаний из данных, не обязательно больших.
Что учить?
Основой Big Data является Hadoop. При первом знакомстве с Big Data лучше всего воспользоваться готовыми дистрибутивами от Cloudera или Hortonworks и изучить продукты, входящие в эти дистрибутивы:
HDFS и форматы файлов ( avro, parquet, …);
HBASE;
MapReduce;
Spark;
Flume;
Kafka;
Hive и, может быть, Impala;
Hue;
Pig;