П:
Како је стругање података за машинско учење постало најинтезивније уско грло од ручног уноса података у наслијеђену миграцију?
О:Један од практичних проблема са којима се компаније могу сусрести приликом покушаја покретања пројекта машинског учења (МЛ) јесте изазов добијања иницијалних скупова података о обуци. То може укључивати радно интензивне процесе као што је брисање веба или друге податке.
Изрази веб сцрапинг и сцрапинг дата углавном се односе на аутоматизоване активности рачунарским софтвером, али за многе пројекте МЛ ће бити случајева да рачунари немају софистицираност за прикупљање исправних циљаних података, тако да ће то морати да се уради "ручно." Ово бисте могли назвати "стругање људског веба / података", и то је незахвални посао. То обично укључује излазак и тражење података или слика којима би се „нахранио“ програм МЛ кроз тренинг сетове. Често је прилично итеративан, што га чини напорним, тромим и захтевним радом.
Бесплатно преузимање: Машинско учење и зашто је то важно |
Стварање података за сетове обуке за МЛ представља јединствено проблематично уско место у машинском учењу, делом и зато што је толико много другог дела врло концептуално и не понавља се. Многи људи могу смислити нову идеју за нову апликацију која обавља задатке машинског учења, али матице и вијци и практични рад могу бити много тежи. Конкретно, делегирање рада на састављању тренинг-сетова може у ствари бити један од најтежих делова МЛ-пројекта, што је у потпуности истражено у ТВ емисији „Силицијска долина“ Микеа Јудге. У епизоди у четвртој сезони, почетник предузетник прво малтретира партнера у обављању напорних послова, а затим покушава да га преда студентима, прерушавајући га у домаћи задатак.
Овај пример је поучан јер показује колико не волим и наизглед безначајно ручно стругање података. Међутим, такође показује да је овај процес неопходан за широк спектар производа машинског учења. Иако већина људи мрзи унос података, скупови за обуку морају бити састављени на одређени начин. Стручњаци за тај поступак често препоручују коришћење услуге скенирања на мрежи - у суштини само преношење овог веома напорног рада на спољне стране, али то би могло имати сигурносне последице и проузроковати друге проблеме. Када поново радите на прикупљању података о ручном прикупљању података, мора се створити одредба за често ручни и дуготрајан процес.
На неки начин, „стругање људских података“ за машинско учење изгледа као ручни унос података који се понекад морао учинити у заостављеним миграцијама. Како је облак постајао све популарнији, а компаније стављају своје процесе и токове рада у облак, неке су откриле да нису радиле кроз практичне аспекте како да своје корпоративне податке из изолованог наслеђеног система пребаце у апликације које су засноване на облаку. Као резултат, неки људи који су иначе били научници података или креативни људи с основним ИТ вештинама нашли су се да раде неугодне задатке за унос података.
Исто се вероватно дешава и са машинским учењем. Можда ћете чути научника који се жали да сам „креативна особа“ или „ја сам на страни развоја“ - али неко мора обавити прљави посао.
Опет, ако креативни ток не буде праћен практичном проценом делегирања радног тока, доћи ће до неусклађености у начину на који је решавање задатака усмерено. Када компанија нема људе који би обављали послове брисања података у прикупљању скупова података, недостаје јој кључни део ланца поступка за успешан пројекат. Вриједно је то имати на уму сваки пут када компанија покуша да се искористи на идеји која је заснована на развоју нових апликација за машинско учење.