Преглед садржаја:
- Велики подаци су неструктурирани или полуструктурирани
- Нема смисла чувати велике податке ако их не можемо обрадити
- Како Хадооп решава проблем великих података
- Пословни случај за Хадооп
Велики подаци су … па … велике величине! Колико тачно подаци могу да се класификују као велики подаци није баш јасан пресек, па се немојмо замарати у тој дебати. За малу компанију која се користи са подацима у гигабајтима, 10 ТБ података би било ВЕЛИКО. Међутим, за компаније попут Фацебоока и Иахооа, петабајти су велики.
Управо величина великих података онемогућава их (или бар превисоко кошта) складиштење у традиционалну меморију попут база података или уобичајених датотека. Говоримо о трошковима складиштења гигабајта података. Употреба традиционалних датотека за похрану може коштати много новца за складиштење великих података.
Овдје ћемо погледати велике податке, њихове изазове и како Хадооп може помоћи у њиховом рјешавању. Прво, највећи изазови великих података.
Велики подаци су неструктурирани или полуструктурирани
Много великих података је неструктурирано. На пример, подаци из евиденције стриминга могу изгледати:
временски жиг, усер_ид, страница, референце_паге
Недостатак структуре чини да релацијске базе података нису баш погодне за чување великих података. Поред тога, нема много база података може се носити са смештањем милијарди редака података.
Нема смисла чувати велике податке ако их не можемо обрадити
Чување великих података је део игре. Морамо га обрадити да бисмо из њега извукли интелигенцију. Традиционални системи складиштења су прилично "глупи" у смислу да они једноставно смештају битове. Они не нуде никакву моћ обраде.
Традиционални модел обраде података садржи податке похрањене у кластеру за складиштење који се копирају у рачунски кластер за обраду. Резултати се враћају у складишни кластер.
Овај модел, међутим, не делује баш за велике податке јер копирање толико података у рачунски кластер може бити предуго или немогуће. Па, шта је одговор?
Једно решење је обрада великих података на месту, као што је у кластеру складишта који се удвостручује као рачунски кластер.
Као што смо видели горе, велики подаци пркосе традиционалном складиштењу. Па како се бавимо великим подацима?
Како Хадооп решава проблем великих података
Хадооп је створен да ради на групи машинаПочнимо са примером. Рецимо да морамо да похранимо пуно фотографија. Почећемо са једним диском. Када премашимо један диск, можда ћемо користити неколико дискова наслаганих на машини. Када максимизирамо све дискове на једној машини, морамо набавити гомилу машина, од којих свака има гомилу дискова.
Управо тако је изграђен Хадооп. Хадооп је дизајниран да ради на групи машина од почетка.
Хадооп кластери се хоризонтално скалирају
Више складиштења и снаге рачунања може се постићи додавањем више чворова у Хадооп кластер. Ово елиминише потребу за куповином све снажнијег и скупљег хардвера.
Хадооп може руковати неструктурираним / полуструктурираним подацима
Хадооп не намеће шему на подацима које похрањује. Може да обрађује произвољни текст и бинарне податке. Тако Хадооп може лако пробавити све неструктуриране податке.
Хадооп кластери омогућавају складиштење и рачунање
Видели смо како постојање одвојених кластера за похрану и обраду није најбоље погодно за велике податке. Хадооп кластери, међутим, обезбеђују складиштење и расподељено рачунање све у једном.
Пословни случај за Хадооп
Хадооп обезбеђује складиштење великих података по разумним ценамаЧување великих података помоћу традиционалног складиштења може бити скупо. Хадооп је изграђен око робног хардвера, тако да може обезбедити прилично велико складиштење за разумне трошкове. Хадооп је коришћен на терену у петабајтној скали.
Једно истраживање Цлоудера сугерише да предузећа обично троше око 25 000 до 50 000 долара по терабајту годишње. Код Хадоопа, овај трошак пада на неколико хиљада долара по терабајту годишње. Како хардвер постаје све јефтинији и јефтинији, овај трошак и даље опада.
Хадооп омогућава снимање нових или више података
Понекад организације не снимају врсту података јер их је превише коштало њихово складиштење. Пошто Хадооп обезбеђује складиштење по повољним ценама, ова врста података може се снимити и сачувати.
Један пример су дневници клика на веб локацији. Будући да количина ових записа може бити врло велика, ниједна организација их није ухватила. Сада је са Хадоопом могуће снимање и складиштење трупаца.
Помоћу Хадоопа можете дуже чувати податке
Да би управљале количином сачуваних података, компаније периодично чисте старије податке. На пример, могу се сачувати само евиденције за последња три месеца, док су старији дневници избрисани. Помоћу Хадоопа је могуће дуже чување историјских података. То омогућава да се изврши нова аналитика на старијим историјским подацима.
На пример, узмите записе о кликом са веб локације. Пре неколико година, ови записи су били сачувани кратко време да би се израчунали статистички подаци попут популарних страница. Сада је са Хадооп-ом одрживо складиштење ових евиденција кликова током дужег временског периода.
Хадооп пружа скалабилну аналитику
Нема смисла чувати све ове податке ако их не можемо анализирати. Хадооп пружа не само дистрибуирано складиштење, већ и дистрибуирану обраду, што значи да можемо паралелно дробити велику количину података. Оквир рачунања Хадоопа назива се МапРедуце. МапРедуце је доказан на скали петабајта.
Хадооп пружа богату аналитику
Нативе МапРедуце подржава Јава као примарни програмски језик. Такође се могу користити и други језици попут Руби, Питхон и Р.
Наравно, писање прилагођеног МапРедуце кода није једини начин за анализу података у Хадоопу. Доступно је смањење карте на вишем нивоу. На пример, алат по имену Пиг преузима енглески језик као проток података и преводи их у МапРедуце. Други алат, Хиве, узима СКЛ упите и изводи их помоћу МапРедуце.
Алат за пословну интелигенцију (БИ) може пружити још већи ниво анализе. Постоје и алати за ову врсту анализе.
Овај садржај је издвојен из „Хадооп Иллуминатед“ Марка Керзнера и Сујее Манииам. Доступна је путем Цреативе Цоммонс Аттрибутион-НонЦом Цоммерциал-СхареАлике 3.0 непоражене лиценце.