Los índices de precisión de la transcripción pueden variar significativamente con el centro de contacto en función de la calidad del audio, la claridad del discurso y la formación adicional proporcionada a través de temas.

La precisión de la transcripción de voz suele medirse mediante Word Error Rate (WER). La WER identifica el número de palabras que se transcriben incorrectamente durante la transcripción de voz y divide este número por el número de palabras de una transcripción manual. 

Hay tres tipos de errores.

  • Inserción (I): Cuando se añaden palabras incorrectas a la transcripción.
  • Supresión (D): Cuando no se detectan palabras en la transcripción.
  • Sustitución (S): Cuando se sustituyen palabras irrelevantes.

Se suman y se dividen por el número total de palabras de la transcripción manual (N). 

A continuación, se calcula la WER con la siguiente ecuación:

Ecuación WER

Transcripción manual: Hoy hace sol y está precioso.

Posibles resultados de la transcripción de voz: El jueves hace un sol precioso.

El resultado del reconocimiento de voz ha sido erróneo:

S = 1 ("jueves" en lugar de "hoy")

D = 1 ( falta "y")

I = 1 ("a" se añade)

N = 5 palabras

En este caso, la WER es del 60%.

En los idiomas basados en caracteres, se utiliza una "tasa de error de caracteres" en lugar de la WER.

Existen tres niveles de madurez en cuanto a la precisión de nuestra transcripción nativa.

  • Generalmente disponible: Este modelo se construye a partir de numerosos datos de entrenamiento.
  • Vista previa: Este modelo se construye a partir de datos de entrenamiento y requiere entrenamiento adicional para mejorar la precisión.
  • Previsión anticipada: El modelo se construye con datos de entrenamiento limitados.

Dentro de Genesys Cloud, el audio se transcribe casi en tiempo real, con una latencia típica de 3-5 segundos, y es accesible a través de nuestras API de notificaciones .  La transcripción completa de la interacción está disponible en la interfaz de usuario de detalles de la interacción inmediatamente después de la llamada, normalmente en 15 segundos.

Para obtener más información, consulte Idiomas compatibles con Genesys Cloud, ¿Cómo puedo aumentar la precisión de la transcripción de voz?, Configurar la transcripción de voz, y ¿Cómo puedo asegurarme de que las palabras personalizadas, los nombres de productos y las marcas se transcriben correctamente?.