П:
Који су кључни начини за аутоматизацију и оптимизацију процеса науке о подацима?
А:Процеси науке о подацима у контексту машинског учења и АИ могу се поделити у четири различите фазе:
- прикупљање података и истраживање,
- грађење модела,
- распоређивање модела и
- онлине процена и усавршавање.
Из мог искуства, највише ометају фазе прикупљања података и фазе примене модела у било којем процесу научног учења заснованог на машинском учењу, а ево два начина како да их оптимизирате:
1. Успоставите високо доступну продаваоницу података.
У већини организација подаци се не чувају на једној централној локацији. Узмимо само информације које се односе на купце. Имате податке о контактима са купцима, е-пошту за корисничку подршку, повратне информације о купцима и историју прегледавања клијената ако је ваше предузеће веб апликација. Сви ови подаци су природно расути јер служе у различите сврхе. Они могу да бораве у различитим базама података, а неке могу бити у потпуности структуриране, а неке неструктуриране, па чак могу бити похрањене и као текстуалне датотеке.
Нажалост, распршеност ових скупова података врло је ограничавајући се на науку о раду података јер су основа свих НЛП, машинског учења и АИ проблема подаци . Дакле, имати све ове податке на једном месту - складишту података - од пресудног је значаја за убрзавање развоја и примене модела. С обзиром на то да је ово пресудан део за све процесе науке о подацима, организације треба да ангажују квалификоване инжењере података који ће им помоћи у изградњи њихових база података. Ово се лако може покренути као једноставна депонија података на једну локацију и полако прерасти у добро осмишљено складиште података, у потпуности документовано и подесљиво помоћу услужних алата за извоз подскупина података у различите формате за различите сврхе.
2. Изложите своје моделе као услугу непрекидне интеграције.
Поред омогућавања приступа подацима, важно је да се у производ интегришу и модели које су развили научници за податке. Може бити изузетно тешко интегрисати моделе развијене у Питхон-у са веб апликацијом која ради на Руби-у. Поред тога, модели могу имати доста зависности од података које ваш производ можда неће моћи да пружи.
Један од начина да се то решите је да поставите снажну инфраструктуру око свог модела и изложите довољно функционалности која је потребна вашем производу да би се модел могао користити као „веб услуга“. На пример, ако вашој апликацији треба класификација осећаја на рецензије производа, све што треба да уради је позивање на веб услугу, пружање релевантног текста и услуга ће вратити одговарајућу класификацију осећаја које производ може директно да користи. На овај начин је интеграција једноставно у облику АПИ позива. Ако раздвојите модел и производ који га користите, стварно је лако за нове производе које осмислите да такође користите ове моделе са мало гњаваже.
Сада је постављање инфраструктуре око вашег модела читава друга прича и захтева велика почетна улагања ваших инжењерских тимова. Једном када је инфраструктура тамо, то је само питање изградње модела на начин који се уклапа у инфраструктуру.