Преглед садржаја:
- Дефиниција - Шта значи вађење текстуалних података?
- Тецхопедиа објашњава рудање текстуалних података
Дефиниција - Шта значи вађење текстуалних података?
Ископавање текстуалних података укључује чешљање кроз текстуални документ или ресурс како би се добили вредне структуриране информације. Ово захтева софистициране аналитичке алате који обрађују текст у циљу добијања одређених кључних речи или кључних тачака података из оних који се сматрају релативно сировим или неструктурираним форматима.
Искључивање текстуалних података такође је познато и као извлачење текста или анализа текста.
Тецхопедиа објашњава рудање текстуалних података
У процесу вађења текстуалних података инжењерски системи користе ствари попут таксономије и лексичке анализе како би утврдили који су делови текстуалног документа вредни као минирани подаци. Статистички модели су обично корисни, а системи такође могу користити хеуристику или алгоритамско нагађање како би покушали одредити који су делови текста важни. Остали контролни системи укључују означавање и анализу кључних речи, где алати траже одређене правилне именице или друге ознаке и кључне речи како би схватили о чему се пише.
Друга јединствена компонента вађења текста често се назива анализом осећања. У анализи осећања, која је углавном много тежа од статистичке анализе, аналитички алати покушавају да утврде расположење или осећај иза писаног текста и других аспеката онога чему се обраћају на веома субјективном и интуитивном нивоу. Појавом алата за вештачку интелигенцију постигнут је велики напредак у анализи осећања, тако да је модерно вађење текстуалних података више него само прикупљање квантитативних референци и укључивање довођења концептуалних модела високог нивоа у ископ текста како би се пронашли нови и јединствени начини да би се прикупили вредни подаци.
