П:
Може ли икада бити превише података у великим подацима?
А:Одговор на питање је гласан ДА. Апсолутно може бити превише података у великом пројекту података.
Постоје бројни начини на које се то може догодити и разни разлози због којих професионалци морају да ограниче и обраде податке на било који број начина да би постигли праве резултате. (Прочитајте 10 великих митова о великим подацима.)
Генерално, стручњаци говоре о разликовању „сигнала“ од „буке“ у моделу. Другим речима, у мору великих података, релевантни увидски подаци постају тешки за циљати. У неким случајевима тражите иглу у сену.
На пример, претпоставимо да компанија покушава да користи велике податке за генерисање одређених увида у сегмент клијентске базе и њихове куповине у одређеном временском оквиру. (Прочитајте шта раде велики подаци?)
Узимање огромне количине података може довести до уноса случајних података који нису релевантни, или може чак створити пристраност која податке скенира у једном или другом правцу.
То такође драстично успорава процес, јер рачунарски системи морају да се боре са већим и већим сетовима података.
У толико много различитих пројеката, инжењерима података изузетно је важно да податке обраде у ограничене и специфичне скупове података - у горњем случају то би били само подаци за тај сегмент клијената који се проучавају, само подаци за то време оквир који се проучава и приступ који отклања додатне идентификаторе или позадинске информације које могу збунити ствари или успорити системе. (Улога РеадЈоб: Инжењер података.)
За више, погледајмо како то функционише на граници машинског учења. (Прочитајте машинско учење 101.)
Стручњаци за машинско учење говоре о нечему што се назива "оверфиттинг" где прекомерно сложен модел доводи до мање ефикасних резултата када је програм машинског учења лабав на новим производним подацима.
Прекомерно уклапање се дешава када сложени скуп точака података превише добро одговара почетном сету обуке и не дозвољава програму да се лако прилагоди новим подацима.
Технички гледано, прекомерно опремање је узроковано не постојањем превише узорака података, већ коронацијом превише тачака података. Али можете тврдити да и превише података може бити фактор који доприноси овој врсти проблема. Суочавање са проклетством димензионалности укључује неке исте технике које су рађене у ранијим пројектима великих података као што су професионалци покушали да прецизирају чиме се хране ИТ системи.
Суштина је да велики подаци могу бити од велике помоћи компанијама или могу постати велики изазов. Један аспект тога је да ли компанија има праве податке у игри. Стручњаци знају да није препоручљиво једноставно бацити сва средства података у спремник и на тај начин смислити увиде - у новим изворним и софистицираним системима података у облаку постоји напор да се контролише и управља и обрађује податке како би се добили тачнији и ефикасна употреба средстава података.