Преглед садржаја:
Дефиниција - Шта значи токенизација?
Токенизација је чин разбијања низа низова на делове као што су речи, кључне речи, фразе, симболи и други елементи названи токени. Токени могу бити појединачне речи, фразе или чак целе реченице. У процесу токенизације, неки знакови попут интерпункцијских знакова одбацују се. Токени постају улаз за други процес као што је рашчлањивање и копирање текста.
Токенизација се користи у рачунарској науци где игра велику улогу у процесу лексичке анализе.
Техопедија објашњава токенизацију
Токенизација се углавном ослања на једноставну хеуристику како би се одвојили токени следећи неколико корака:
- Токени или речи одвојени су белим простором, интерпункцијским ознакама или прелозима линија
- Бијели размак или интерпункцијске знакове могу или не морају бити укључени, овисно о потреби
- Сви знакови у непрекидним низовима су део токена. Токени се могу састојати од свих алфа знакова, алфанумеричких или нумеричких карактера.
Сами токени такође могу бити сепаратори. На пример, у већини програмских језика идентификатори се могу поставити заједно са аритметичким операторима без белих размака. Иако се чини да ће се то чинити као једна реч или токен, граматика језика математички оператор (токен) заправо сматра сепаратором, па чак и када је више токена сабрано заједно, они се још увек могу одвојити математичким оператера.
