Преглед садржаја:
- Како је Хадооп започео?
- Шта је толико важно у вези са Хадооп-ом?
- Шта је шема читања?
- Шта је кошница?
- Какве податке анализира Хадооп?
- Можете ли дати пример Хадоопа у стварном свету?
- Да ли је Хадооп већ застарео или се само претвара?
Шта је Хадооп? То је жути слон за играчке. Није оно што сте очекивали? Шта кажете на то: Доуг Цуттинг - ко-творац овог софтверског пројекта отвореног кода - позајмио је име од свог сина који је случајно назвао свог играчког слона Хадооп. Укратко, Хадооп је софтверски оквир развијен од стране Апацхе Софтваре Фоундатион који се користи за развој расподељених рачунара који захтевају податке. А кључна је компонента у другом читаоцу буззворд-а који никада не може добити довољно: великих података. Ево седам ствари које бисте требали знати о овом јединственом, бесплатно лиценцираном софтверу.
Како је Хадооп започео?
Пре дванаест година, Гоогле је изградио платформу за манипулацију огромним количинама података које је прикупљао. Као што то компанија често чини, и Гоогле је свој дизајн учинио доступним јавности у облику два рада: Гоогле Филе Систем и МапРедуце.
У исто време, Доуг Цуттинг и Мике Цафарелла радили су на Нутцх, новом претраживачу. Њих двоје су се такође борили како да поступају са великим количинама података. Тада су двојица истраживача добили информацију о Гоогле-овим папирима. Та срећна раскрсница све је променила увођењем Цуттинга и Цафарелле у бољи систем датотека и начин за праћење података, што на крају води ка стварању Хадоопа.
Шта је толико важно у вези са Хадооп-ом?
Данас је прикупљање података лакше него икад. Посједовање свих ових података пружа много могућности, али постоје и изазови:- Огромне количине података захтевају нове методе обраде.
- Подаци који се снимају су у неструктурираном формату.
Затим су морали да се баве неструктуираним подацима или подацима у форматима са којима стандардни системи релационих база података нису могли да поступају. Цуттинг и Цафарелла дизајнирали су Хадооп за рад са било којом врстом података: структурираним, неструктурираним, сликама, аудио датотекама, чак и текстом. Овај Цлоудера (Хадооп интегратор) бели папир објашњава зашто је ово важно:
-
"Када све своје податке учините употребљивим, а не само оно што се налази у вашим базама података, Хадооп вам омогућава откривање скривених односа и открива одговоре који су увек били ван досега. Можете да почнете да доносите више одлука на основу тешких података, уместо ситница и погледајте у комплетним скуповима података, а не само узорака и сажетака. "
Шта је шема читања?
Као што је раније споменуто, једна од предности Хадоопа је његова способност да обрађује неструктуриране податке. У одређеном смислу, то је "ударање лименке низ цесту." Подаци на крају требају неку врсту структуре да би их могли анализирати.
Ту се појављује шема на читање. Читана шема је мерење формата података у коме се налазе, где се подаци налазе (упамтите да су подаци раштркани на неколико сервера) и шта треба урадити са подацима - није једноставан задатак. Речено је да манипулација подацима у Хадооп систему захтева вештине пословног аналитичара, статистичара и Јава програмера. Нажалост, нема много људи са тим квалификацијама.
Шта је кошница?
Ако би Хадооп успео, рад са подацима морао је да буде поједностављен. Дакле, публика отвореног кода је почела да ради и створила је кошницу:-
"Хиве пружа механизам за пројектовање структура на ове податке и испитивање података користећи језик сличан СКЛ-у који се зове ХивеКЛ. Истовремено овај језик такође омогућава традиционалним програмерима за мапирање / смањивање да додају своје прилагођене мапере и редукторе када је то незгодно или неучинковито за изражавање ове логике у ХивеКЛ-у. "
Хиве омогућава најбоље из оба света: особље базе података упознато са СКЛ наредбама може манипулирати подацима, а програмери упознати са схемом у процесу читања и даље могу креирати прилагођене упите.
Какве податке анализира Хадооп?
Веб аналитика је прво што вам падне на памет, анализирајући Веб дневнике и веб саобраћај у циљу оптимизације веб локација. Фацебоок, на пример, дефинитивно се бави веб анализом, користећи Хадооп за поређење терабајта података које компанија накупља.
Компаније користе Хадооп кластере за анализу ризика, откривање превара и сегментацију на бази купаца. Комуналне компаније користе Хадооп за анализу података сензора из њихове електричне мреже, омогућавајући им да оптимизирају производњу електричне енергије. Главне компаније попут Таргет, 3М и Медтроницс користе Хадооп за оптимизацију дистрибуције производа, процене пословног ризика и сегментације на нивоу купаца.
И универзитети се улажу у Хадооп. Брад Рубин, ванредни професор на Универзитету Ст. Тхомас дипломирани програми софтвера, споменуо је да његова стручност Хадооп помаже у сортирању кроз обилну количину података које су прикупиле истраживачке групе на универзитету.
Можете ли дати пример Хадоопа у стварном свету?
Један од познатијих примера је ТимесМацхине. Њујорк тајмс има збирку ТИФФ слика из читавих страница са новинама, припадајућих метаподатака и текста чланка од 1851. до 1922. године, који износе терабајте података. Дерек Готтфрид са НИТ-а, користећи ЕЦ2 / С3 / Хадооп систем и специјализовани код:-
"Унесено је 405.000 веома великих ТИФФ слика, 3.3 милиона чланака у СГМЛ-у и 405.000 кмл датотека који пресликавају чланке у правоугаоне регионе у ТИФФ-овима. Ови подаци су претворени у веб прилагођени веб 810.000 ПНГ слика (сличице и пуне слике) и 405.000 ЈаваСцрипт датотека. "
Користећи сервере у облаку Амазон Веб Сервицес, Готтфрид је споменуо да су у могућности да обраде све податке потребне за ТимесМацхине за мање од 36 сати.
Да ли је Хадооп већ застарео или се само претвара?
Хадооп постоји већ више од деценије. Многи кажу да је застарео. Један стручњак, др Давид Рицо, рекао је да су "ИТ производи краткотрајни. У паским годинама Гооглеови производи су око 70, док је Хадооп 56".
Можда постоји нешто истине о ономе што Рицо каже. Чини се да је Хадооп прошао кроз главни ремонт. Да бих сазнао више о томе, Рубин ме позвао на састанак корисничке групе Твин Цитиес Хадооп, а тема разговора била је Увод у ПРИЈАВУ:
-
"Апацхе Хадооп 2 укључује нови МапРедуце мотор који има бројне предности у односу на претходну имплементацију, укључујући бољу скалабилност и коришћење ресурса. Нова имплементација изграђена је на општем систему за управљање ресурсима за покретање дистрибуираних апликација који се зове ИАРН."