П:
Каква је разлика између говора и текста?
А:Многобројне значајне разлике између технологија говора у текст и цхатбота део је онога што се испитује у наглој еволуцији пројеката за четовање и воицеботе.
Технологија говора у текст једноставно је она која претвара вербални говор у текст на дигиталној страници. То је његова пуна функција, али није она једноставна за дизајн. Да би се вербални говор претворио у текст, технологија мора да разреши речи и реченице у појединачне фонеме и да сарађује са њима у складу са сложеним алгоритмима да би се створио тачан текст и представља оно што је говорник рекао.
С друге стране, цхатботи су технологије које остварују циљ комуникације са човеком. Постоје две врсте цхатботова: текстуалне и гласовне датотеке. Текстуалне цхатботе су много дуже, јер им не треба елемент „говор-текст“ који говорни ботови користе.
Главна разлика између технологија говора у текст и цхатбота је опсег. Као што је већ поменуто, све технологије која говори у текст треба да ураде преписивање вербалног говора. С друге стране, цхатбот мора да говори у било ком облику који је направљен, да га разуме и пружи одговоре који желе да прођу Турингов тест - тест да ли технологија може преварити човека да мисли да је он или она разговарајући са другом особом.
Имајући то у виду, цхатботове је много лакше створити него гласовне. Цхатбот узима људски текст и пружа текстуални одговор. Чак су и релативно једноставни цхатботи успели да пруже занимљиве и угодне резултате људима од краја 1980-их и почетка 1990-их.
С друге стране, гласовни говор мора да преузме вербални говор, претвори га у текст, провери тачност, произведе одговор и изгради тај одговор из машинског језика у звучни говор. Овај велики број прилично значајних задатака значи да је звучнику потребно много рачунарске снаге и много дизајна да се изгради.
Пројекти попут Сири, Цортана и Алека демонстрирају део авангарде технологија воицебота. Они такође илуструју да је ова технологија још увек у повојима. Иако Алека и друге технологије могу вербално одговорити на људски говор, нису изузетно способне у смислу који повезујемо са вербалним људским говором уопште. Другим речима, постоји прилично ограничење у одговорима које ове технологије могу да пруже. Постоји чак и ограничена способност данашње генерације личних помоћника да заиста генеришу говор у текст, на пример, за потребе преписивања е-поште или помоћи некоме да напише есеј без употребе руку. Неки од специфичних програма говора у текст на тржишту то раде боље него Сири или Цортана, вероватно због алокације ресурса. Међутим, постоје знакови да ће напредак воицебота ускоро кренути - попут Амазонове Лек платформе која омогућава студијско окружење за изградњу ових врста технологија.
У паметном и поучном есеју о овој теми, Тобиас Гоебел говори о разлици између тих технологија, супротстављајући процес „преписивања“, који говор у текст обавља, са задатком разумевања, који цхатботови треба да раде.
„Иако елиминација потребе за препознавањем говора олакшава ствари цхатботу, главни изазов за изградњу функционалних ботова лежи у разумевању природног језика“, пише Гоебел.
Гоебел такође идентификује многе тренутне играче у индустрији:
Лидер на тржишту за препознавање говора је Нуанце, који стоји иза познатих система као што је Драгон НатураллиСпеакинг за диктат на ПЦ-у, који постоји већ од деведесетих, али и Сири: задатак препознавања / преписивања говора вођен у Аппле облаку користи Нуанце технологија иза сцене. Остали су ЛуменВок, Вербио или Интерацтионс, али препознавање говора сада се нуди и као цлоуд услуга путем АПИ-ја попут Амазона, Гооглеа, Мицрософта и ИБМ-а.
Како се цхатботи развијају, претпоставља се да ће њихово разумевање наставити да се повећава на некој путањи - а такође се у великој мери претпоставља да ће више бот технологија прећи са текстуалних у вербалне интерфејсе, што захтева додатне количине рачунске снаге.