Casa Àudio Escolto gent morta? la tecnologia del llenguatge natural fa que les veus passades i presents cobrin vida

Escolto gent morta? la tecnologia del llenguatge natural fa que les veus passades i presents cobrin vida

Taula de continguts:

Anonim

Actualment, la majoria de veus d’ordinador passen. Probablement no us molesteu molt amb els cyborgs i els robots quan escolteu el "droroid" al vostre telèfon ajudant-vos amb un pagament de la factura o preguntant-vos quin departament voleu. Però, i si de sobte escoltàveu a Kurt Cobain produint-vos informació sobre la targeta? O John F. Kennedy que us explica les meravelles de les votacions anticipades? O Elvis es posa el vostre nom i la vostra adreça abans de trencar amb "una fossa, un gruix d'amor ardent?"


Tot això seria estrany, però el que és encara més fascinant és que la tecnologia ja està aquí. Fa tan sols una dècada més o menys, ens va sorprendre la capacitat d'un ordinador de fins i tot parlar. Ara, estem a punt d'estar gravats per veus lliures i generades per ordinador que sonen igual que gent que coneixem.

Grans canvis en PNL

Si esteu atenent al camp del processament del llenguatge natural (PNL), potser heu sentit a parlar d'alguns avenços recents que van més enllà del tipus de veus assistents virtuals enllaçades que ara sentim en els nostres sistemes de posicionament global (GPS) i en empreses automatitzades. línies de telèfon.


El començament de la PNL va requerir moltes recerques sobre la mecànica general de la parla humana. Els investigadors i els enginyers van haver d’identificar la fonètica individual, dividir-los en algoritmes més grans per generar frases i frases, i després intentar gestionar-ho tot a un nivell meta per generar una cosa que semblava real. Amb el pas del temps, els líders de la PNL van dominar això i van començar a construir algoritmes avançats per entendre el que diuen els humans. Amb aquestes dues combinacions, les empreses van oferir els motors per als assistents virtuals actuals i els clergues de factura de pagaments totalment digitals, els manismes dels quals, tot i que molestos, encara són sorprenents quan deixeu de pensar en el treball que els va fer.


Ara, algunes empreses van més enllà de la veu virtual genèrica per obtenir un resultat personalitzat més específic. Això requereix recórrer el lèxic d’una determinada persona i recopilar grans quantitats de vídeo de veu únic, per després aplicar aquest arxiu als ritmes complexos per a la fonètica, l’èmfasi, la cadència i tots els altres minúsculs indicis que els lingüistes solen agrupar sota l’àmplia pancarta de la “prosòdia”.


El que surt és una veu que els oients consideren "propietat" d'una persona en concret, ja sigui algú amb qui coneixen i han parlat, o algú amb la veu que reconeixen com a resultat de la fama de la persona.


De Elvis a Martin Luther King, la veu de qualsevol es pot "clonar" d'aquesta manera, sempre que hi hagi un registre substancial de la seva intervenció. Aplicant anàlisis i manipulacions encara més detallades a petits sons individuals, les empreses són capaces de fer una còpia virtual de carboni de la veu d’algú que sembli molt a la cosa real.

Creació "Text a veu" emocionant a VivoText

VivoText, per exemple, és una empresa que treballa per revolucionar l’ús de veus humanes artificials per a tot tipus de campanyes, des dels audiollibres fins a la resposta de veu interactiva (IVR). A VivoText, els equips de recerca i producció estan treballant en processos que, teòricament, podrien replicar específicament les veus de celebritats mortes, com el mateix Ol 'Blue Eyes.


"Per clonar la veu de Frank Sinatra, realment passaríem pel seu llegat gravat", afirma el director general de VivoText, Gershon Silbert, que parla sobre com podria funcionar aquest tipus de tecnologia.


Ara mateix, VivoText està treballant per arxivar les veus dels que encara estan amb nosaltres, com el corresponsal de NPR, Neal Conan, que es va inscriure com a model per a aquest tipus de projecte pioner en TI. Un vídeo promocional mostra els treballadors de VivoText creant amb molta cura mòduls de codi fonètics mitjançant l’entrada de veu proporcionada de Conan. A continuació, creen els models d’eines de text a veu (TTS) que evoquen un resultat dramàticament humà i personificat.


Segons Ben Feibleman, vicepresident d’estratègia i desenvolupament de negocis de VivoText, l’ordinador funciona a nivell de fonemes (utilitzant les parts més singulars del discurs) per conformar-se a un model prosòdic d’una veu humana individual.


"Sap com parla la veu", diu Feibleman, i afegeix que mitjançant l'ús de "selecció d'unitats", l'ordinador tria diverses peces per agrupar una sola paraula curta, com la de "divendres" que es proporciona a cinc components que ajuden a desenvolupar un èmfasi particular i un resultat tonal.

Veu artificial en màrqueting

Llavors, com funciona això en el màrqueting? Els productes de VivoText poden ser de gran utilitat per crear productes, com els llibres d’àudio, que puguin arribar a un públic objectiu. Per exemple, quina quantitat més eficaç es compararia amb una de les veus genèriques, mortes i automatitzades actuals, si s’utilitzés per vendre productes relacionats amb l’entreteniment?


O, què passa en política? Feibleman ha estat treballant en diverses idees per utilitzar projectes com aquest per millorar el màrqueting per a empreses o altres parts que necessiten missatgeria més eficaç.


"Si coneixeu algun polític que opta a la presidència, això podria fer que 10 milions de votants dels Estats Units rebin una trucada personal d'un candidat, agraint-los el seu suport, dient-los on han d'anar per votar, el clima i totes les guarnicions. nit abans de les eleccions ", va dir Feibleman.

La veu veu activa

A tota aquesta tecnologia hi ha una altra aplicació òbvia. Les empreses de llenguatge natural com VivoText podrien crear un servei personal que carregués totes les dades de veu d’un client en un producte que permetés a aquesta persona "parlar per sempre".


La implementació pràctica podria plantejar diverses preguntes sobre com escoltem i interioritzem les veus parlades. Per exemple, què cal fer que un flux de so soni exactament com algú? Què tan bé hem de conèixer a una persona per reconèixer una veu en particular? I, interessantment, què passa si un servei de llenguatge natural produeix una caricatura crua en lloc d’un imitador convincent?


Feibleman, segons Feibleman, depèn sovint de l’avaluació dels resultats. Per exemple, diu que els nens no solen fer preguntes sobre qui parla quan escolten un conte. Només volen més. Però també, és possible que molts adults no pensin en qui els parla, donat un escenari concret, com ara una emissió passiva o un missatge telefònic. A més, és més fàcil deixar-se enganyar per ordinador per telèfon perquè el so esmicolat pot emmascarar glopades o altres discrepàncies entre els resultats de l’ordinador i la veu humana.


"No et sembla desafiar l'autenticitat de la veu", diu Feibleman.

L’any 2525

A mesura que les empreses avancen en el desenvolupament de productes i serveis i responent a aquestes preguntes, les tecnologies "discurs en viu" ens podrien avançar cap a aquesta convergència de tecnologia i ment mental, que clàssicament s'ha anomenat intel·ligència artificial (AI).


Si els ordinadors poden parlar com nosaltres, potser podrien enganyar altres usuaris a pensar que pensen com nosaltres, alimentant-nos en el principi més gran de la singularitat, tal com va introduir el nostre lèxic per John von Neumann, un pioner de la tecnologia dels anys 1950 evangelitzat per escriptors. i pensadors com Ray Kurzweil. El llibre de Kurzweil, "La singularitat és a prop", fa entusiasmar a alguns i espantar-ne els altres. Kurzweil va predir que cap al 2045, la "intel·ligència" com a fenomen es deslligarà molt del cervell humà i migrarà a la tecnologia, difuminant les línies entre les màquines i els seus amos humans.


Immortalitzat amb les lletres de Zager & Evans "" L'any 2525 "(ningú fa balades de ciència-ciència fantàstiques com aquests nois) …


L'any 4545

No necessitareu les dents, no necessitareu

els teus ulls

No trobaràs res per mastegar

Ningú no et mirarà


L’any 5555

Els seus braços pengen els braços als seus costats

Les cames no tenien res a fer

Hi ha alguna cosa que fa la màquina


Les veus informàtiques són un pas en aquesta direcció? Com a nova manera d’externalitzar algunes de les funcions del cos humà (o més freqüentment, per simular-les), aquest tipus de progrés tecnològic és un dels avenços més grans (i probablement menys reportats) a l’horitzó a mesura que contemplem un futur singular. . (sobre "la singularitat" de Will Computers Serà capaç d'imitar la ment humana?)

Escolto gent morta? la tecnologia del llenguatge natural fa que les veus passades i presents cobrin vida