Кућа Аудио Хадооп аналитика: није баш лако из више извора података

Хадооп аналитика: није баш лако из више извора података

Преглед садржаја:

Anonim

Хадооп је одлично место за пребацивање података за обраду аналитике или за моделирање већих количина једног извора података који нису могући у постојећим системима. Међутим, како компаније доносе податке из многих извора у Хадооп, све је већа потражња за анализом података из различитих извора, што може бити изузетно тешко постићи. Овај пост је први у тродијелном низу који објашњава проблеме с којима се организације суочавају, док покушавају анализирати различите изворе података и типове унутар Хадоопа, и како ријешити ове изазове. Данашњи пост фокусиран је на проблеме који се јављају код комбиновања више унутрашњих извора. Следећа два поста објашњавају зашто се ови проблеми повећавају сложеношћу, како се додају спољни извори података и како нови приступи помажу у њиховом решавању.

Подаци из различитих извора тешко повезати и мапирати

Подаци из различитих извора имају различите структуре које отежавају повезивање и мапирање типова података заједно, чак и податке из унутрашњих извора. Комбиновање података може бити посебно тешко ако купци имају више бројева рачуна или је организација стекла или се спојила са другим компанијама. Током последњих неколико година, неке организације су покушале да користе откриће података или апликације науке података да би анализирали податке из више извора сачуваних у Хадоопу. Овај приступ је проблематичан јер укључује пуно нагађања: корисници морају одлучити које ће стране кључеве користити за повезивање различитих извора података и претпоставке приликом стварања слојева модела података. Те претпоставке је тешко тестирати и често су погрешне када се примењују у скали, што доводи до неисправне анализе података и неповерења у изворе.

Хадооп стручњаци покушавају заједно објединити податке

Због тога, организације које желе да анализирају податке из различитих извора прибегавају ангажовању стручњака Хадооп-а како би направили прилагођене скрипте специфичне за извор који би објединили скупове података. Ови стручњаци Хадоопа обично нису стручњаци за интеграцију података или ентитет за рјешавање, али раде најбоље што могу како би одговорили на тренутне потребе организације. Ови стручњаци обично користе Пиг или Јава за писање чврстих и брзих правила која одређују како комбиновати структуриране податке из одређених извора, нпр. Подударање записа на основу броја рачуна. Након што је написан скрипта за два извора, ако треба додати и трећи извор, први скрипта мора бити одбачен и нова скрипта дизајнирана да комбинује три специфична извора. Иста ствар се дешава ако се дода други извор и тако даље. Не само да је овај приступ неефикасан, већ и не успева када се примењује у скали, лоше поступа са рубним случајевима, што може резултирати великим бројем дупликата записа и често обједињује многе записе које не би требало комбиновати.

Хадооп аналитика: није баш лако из више извора података