Casa Desenvolupament Què és la tokenització? - Definició de tecnologia

Què és la tokenització? - Definició de tecnologia

Taula de continguts:

Anonim

Definició: què significa la Tokenization?

La tokenització és l’acte de desglossar una seqüència de cadenes en peces com ara paraules, paraules clau, frases, símbols i altres elements anomenats fitxes. Les fitxes poden ser paraules individuals, frases o fins i tot frases completes. En el procés de tokenització, es descarten alguns caràcters com els signes de puntuació. Les fitxes es converteixen en l’entrada d’un altre procés com el parsing i la mineria de text.

La tokenització s'utilitza en informàtica, on té un gran paper en el procés d'anàlisi lèxica.

Techopedia explica Tokenització

La Tokenization es basa principalment en simple heurística per tal de separar els testimonis seguint uns quants passos:

  • Els testimonis o les paraules estan separats per espais en blanc, signes de puntuació o salts de línia
  • Es pot incloure o no un espai blanc o signes de puntuació segons la necessitat
  • Tots els caràcters de les cadenes contigües formen part del testimoni. Les fitxes es poden constituir només per tots els caràcters alfa, caràcters alfanumèrics o nombres només.

Els tokens també poden ser separadors. Per exemple, en la majoria de llenguatges de programació, es poden situar identificadors amb operadors aritmètics sense espais blancs. Tot i que sembla que aparegui com una sola paraula o testimoni, la gramàtica de la llengua considera realment l'operador matemàtic (un testimoni) com un separador, de manera que fins i tot quan es combinen diversos testimonis, encara es poden separar mitjançant la matemàtica operador

Què és la tokenització? - Definició de tecnologia