P:
Quina diferència hi ha entre el discurs i el text de xat?
R:Les nombroses diferències significatives entre les tecnologies de parla a text i els chatbots formen part del que s’està examinant en la ràpida evolució dels projectes de chatbot i voicebot.
Una tecnologia de parla a text és simplement una que converteix el discurs verbal en text en una pàgina digital. Aquesta és la seva funció completa, però no és senzilla de dissenyar. Per tal de convertir la parla verbal en text, la tecnologia ha de descompondre paraules i frases en fonemes individuals i treballar amb ells segons algorismes complexos per crear un text exacte i que representi el que va dir el parlant.
Els chatbots, d’altra banda, són tecnologies que compleixen l’objectiu de comunicar-se amb un humà. Hi ha dos tipus de xats de xat: els xat de text i els bots de veu. Els missatges de xat de text han estat molt més llargs perquè no necessiten l’element de veu a text que utilitzen els vocals.
La diferència principal entre les tecnologies de parla a text i els xat bots és l’abast. Com s'ha esmentat, tota la tecnologia de veu a text ha de fer és transcriure el discurs verbal. El chatbot, per la seva banda, ha de prendre un discurs en qualsevol forma, per comprendre-ho i proporcionar respostes que busquen passar la prova de Turing, la prova de si una tecnologia pot enganyar un humà a pensar que ell o ella és. parlant amb una altra persona.
Tenint això en compte, els chatbots són molt més fàcils de crear que els bots de veu. El chatbot inclou el text de l’ésser humà i proporciona una resposta de text. Fins i tot els chatbots relativament simples han pogut proporcionar resultats interessants i agradables per als humans des de finals dels anys vuitanta i principis dels noranta.
El bot de veu, d’altra banda, ha d’adoptar la parla verbal, convertir-la en text, comprovar-ne l’exactitud, produir una resposta i crear aquesta resposta des del llenguatge de la màquina en un discurs audible. Aquest gran nombre de tasques força significatives significa que la bústia de veu requereix molta potència informàtica i molt de disseny per crear.
Projectes com Siri, Cortana i Alexa demostren part de l'avantguarda de les tecnologies de voicebot. També il·lustren que aquesta tecnologia encara està a la seva infància. Tot i que Alexa i altres tecnologies poden respondre verbalment a la parla humana, no són extremadament capaces en el sentit que ens associem a la parla humana en general. És a dir, hi ha una limitació molt gran a les respostes que poden proporcionar aquestes tecnologies. Fins i tot hi ha una capacitat limitada de la generació d’assistents personals actuals de generar un discurs a text realment, per exemple, amb els propòsits de transcriure un correu electrònic o d’ajudar a algú a escriure un assaig sense utilitzar les seves mans. Alguns dels programes específics de parla a text del mercat ho fan millor que Siri o Cortana, probablement a causa de l’assignació de recursos. No obstant això, hi ha indicis que aviat es produirà un progrés de la veu, com ara la plataforma Lex d'Amazon que permet un entorn d'estudi per a la creació d'aquest tipus de tecnologies.
En un assaig intel·ligent i instructiu sobre el tema, Tobias Goebel parla de la diferència entre aquestes tecnologies, contrastant el procés de “transcripció”, que fa el discurs a text, a la feina d’entendre, que se suposa que fan els chatbots.
"Si bé elimina la necessitat de reconeixement de la veu, les coses són més fàcils per a un chatbot, el principal repte per crear bots que funcionen rau en la comprensió del llenguatge natural", escriu Goebel.
Goebel també identifica molts dels actors actuals del sector:
El líder del mercat per al reconeixement de la veu és Nuance, que es troba al darrere de sistemes molt coneguts com Dragon NaturallySpeaking per a dictar en un PC, que es troba des dels anys noranta, però també Siri: la tasca de reconeixement / transcripció del discurs realitzada al núvol d'Apple utilitza Tecnologia de matisos darrere dels escenaris. Altres són LumenVox, Verbio o Interaccions, però ara es reconeix el reconeixement de la veu com a servei de núvol mitjançant API també com Amazon, Google, Microsoft i IBM.
A mesura que els xat bots es desenvolupen, s'assumeix que la seva comprensió continuarà augmentant en alguna trajectòria, i també se suposa en gran mesura que més tecnologia bot passarà de les interfícies de text a les interfícies verbals, requerint quantitats addicionals de potència informàtica.