Cytat(com @ 14.06.2016, 14:59:58 )

Wcale nie napisałem, że jest szybki no tak fakt teraz mają Cloud Dataflow

Chodzilo mi oto, ze Hadoop nie nadaje sie do wykonywania czegokolwiek w czasie niemal rzeczywistym. To jest po prostu framework do wykonywania batchowych jobow, do tego jest passe i sa juz lepsze narzedzia na rynku.
Pracowalem przy projekcie wyszukiwarki w pewnej europejskiej firmie, ktora ma ambicje przejac czesc rynku wyszukiwania od Google.
Jest z tym masa roboty ale nie ma tam cudow. Szybkie wyszukiwanie mozna napisac od zera chociazby w pythonie i spokojnie wyciagnie tysiace zapytan na sekunde. Samo szukanie w indeksie jest trywialne, indeksowanie sprawia problemy skali, potrzeba setek maszyn zeby po prostu trzymac taka ilosc danych, do tego dochodzi replikacja, regiony itp. Mapreduce i pochodne stosuje sie do budowania indeksu na podstawie danych chociazby z wyszukiwarek internetowych, dzisiaj nawet crawling nie ma sensu bo internet rosnie zbyt szybko, a przegladarki internetowe sa "za darmo" bo to co wpisujecie w szukajce i w pasku adresu jest produktem na ktorym stoi duzy biznes.