Преглед садржаја:
- Како се користе велики подаци
- Где је права вредност?
- Понекад мали подаци праве већи (и мање скуп) утицај
Велики подаци су дебела реч која се користи за обраду с великим количинама података. Сви разумемо да што је већа количина података, они постају сложенији. Традиционална решења база података често не успевају правилно управљати великим количинама података због њихове сложености и величине. Стога је управљање великим количинама података и вађење стварног увида тежак задатак. Исти концепт „вредности“ такође је применљив на мале податке.
Како се користе велики подаци
Конвенционална решења база података заснована на РДБМС концепту могу веома добро да управљају трансакцијским подацима и широко се користе у различитим апликацијама. Али када је у питању руковање великим бројем података (подаци који се архивирају и налазе се у терабајтима или петабајтима), ова решења база података често не успеју. Ови скупови података су превелики и већину времена се не уклапају у архитектуру традиционалних база података. Ових дана велики подаци постали су исплатив приступ за руковање већим сетовима података. Са организационог становишта, употреба великих података може се рашчланити на следеће категорије, где стварна вредност великих података лежи:- Аналитичка употреба
Аналитичари великих података открили су многе важне скривене аспекте података који су превише скупи за обраду. На пример, ако морамо да проверимо интересовање студената за одређену нову тему, то можемо да урадимо анализом евиденција о свакодневном похађању и другим друштвеним и географским чињеницама. Те се чињенице биљеже у бази података. Ако не можемо ефикасно приступити тим подацима, не можемо видети резултате.
- Омогућите нове производе
У недавној прошлости, велики број нових веб компанија, попут Фацебоока, почеле су да користе велике податке као решење за покретање нових производа. Сви знамо колико је Фацебоок популаран - успешно је припремио корисничко искуство високих перформанси користећи велике податке.
Где је права вредност?
Различита рјешења великих података разликују се у приступу похране података, али на крају, сви они похрањују податке у равну структуру датотека. Опћенито, Хадооп се састоји од датотечног система и неких апстракција података на нивоу оперативног система. Ово укључује МапРедуце мотор и Хадооп Дистрибуирани датотечни систем (ХДФС). Једноставан Хадооп кластер укључује један главни чвор и неколико радних чворова. Главни чвор састоји се од следећег:- Трагач задатака
- Јоб Трацкер
- Име чвора
- Дата Ноде
- Трагач задатака
- Дата Ноде
Неке имплементације имају само чвор података. Чвор података је стварна област у којој се налазе подаци. ХДФС чува велике датотеке (у распону од терабајта до петабајта) дистрибуиране на више машина. Поузданост података на сваком чвору постиже се умножавањем података на свим домаћинима. Стога су подаци доступни чак и када је један од чворова доле. Ово помаже у постизању бржег одговора на упите. Овај концепт је веома користан у случају огромних апликација попут Фацебоока. Као корисник, на пример, добили смо одговор на наш захтев за ћаскање готово одмах. Размислите о сценарију у којем корисник мора дуго чекати док разговара. Ако се порука и накнадни одговор не доставе одмах, колико ће људи заправо користити ове алате за ћаскање?
Вратимо се на Фацебоок имплементацију, ако се подаци не реплицирају на кластерима, неће бити могуће имати привлачну имплементацију. Хадооп податке дистрибуира на машинама у већем кластеру и смешта датотеке као редослед блокова. Ови блокови су идентичне величине осим последњег блока. Величина блока и фактора репликације могу се прилагодити према потреби. Датотеке у ХДФС строго слиједе приступ писања једном, па их истовремено може писати или уређивати само један корисник. Одлуке о репликацији блокова доносе именски чвор. Чвор имена прима извештаје и одговоре пулса из сваког од чворова података. Пулсни одговори осигуравају доступност одговарајућег чвора података. Извештај садржи детаље блокова на чвору података.
Друга велика примена података, Цассандра, такође користи сличан концепт дистрибуције. Цассандра дистрибуира податке на основу географског положаја. Стога се у Касандри подаци сегрегирају на основу географског положаја употребе података.
Понекад мали подаци праве већи (и мање скуп) утицај
Према Руфусу Поллоку из Фондације Отворено знање, нема смисла стварати хипере око великих података, док мали подаци и даље представљају место где лежи права вредност.
Као што име сугерира, мали подаци су скуп података циљаних из већег скупа података. Мали подаци намеравају да преусмери фокус са коришћења података и такође има циљ да супротстави тренд померања ка великим подацима. Приступ малих података помаже у прикупљању података на основу специфичних захтјева уз мање напора. Као резултат, то је ефикаснија пословна пракса током примене пословне интелигенције.
У основи се концепт малих података врти око предузећа која захтевају резултате који захтевају даље акције. Ови резултати требају бити брзо пронађени, а наредне акције би такође требале бити брзо извршене. На тај начин можемо елиминисати врсте система који се обично користе у анализи великих података.
Генерално, ако размотримо неке специфичне системе који су потребни за прикупљање великих података, компанија би могла уложити у постављање великог броја складишних сервера, користити софистициране сервере високог ценовног ранга и најновије апликације за вађење података за руковање различитим битовима података, укључујући датуме и времена корисничких акција, демографске и друге информације. Цео овај скуп података премешта се у централно складиште података, где се сложени алгоритми користе за сортирање и обраду података за приказ у облику детаљних извештаја.
Сви знамо да су ова решења користила многим предузећима у смислу скалабилности и доступности; постоје организације које откривају да је за прихватање ових приступа потребан значајан напор. Истина је и да се у неким случајевима слични резултати постижу употребом мање робусне стратегије за вађење података.
Мали подаци пружају могућност организацијама да се одвоје од опсесије најновијим и најновијим технологијама које подржавају софистицираније пословне процесе. Компаније које промовишу мале податке тврде да је са пословне тачке гледишта важно да се ресурси користе на ефикасан начин, тако да се у одређеној мери може избећи прекомерна потрошња технологије.
Много смо разговарали о великим подацима и малим реалностима података, али морамо разумјети да је одабир исправне платформе (великих података или малих података) за исправну употребу најважнији дио цијеле вјежбе. И истина је да иако велики подаци могу пружити пуно предности, то није увек најбоље.