Transcripción de voz - ¿Cuál es la latencia esperada y el nivel de precisión de la transcripción de voz?

Los índices de precisión de la transcripción pueden variar significativamente con el centro de contacto en función de la calidad del audio, la claridad del discurso y la formación adicional proporcionada a través de temas.

La precisión de la transcripción de voz se mide normalmente mediante el índice de error de palabra (WER). Un error puede ser la eliminación de una palabra, la inserción de una palabra o cuando se transcribe la palabra incorrecta. Se compara con el número total de palabras de una transcripción. La WER se resta de 100 para obtener la precisión. Por ejemplo, un porcentaje de error de palabra del 20% significaría una precisión del 80%.

Existen tres niveles de madurez en cuanto a la precisión de nuestra transcripción nativa.

  • Generalmente disponible: Este modelo se construye a partir de numerosos datos de entrenamiento.
  • Vista previa: Este modelo se construye a partir de datos de entrenamiento y requiere entrenamiento adicional para mejorar la precisión.
  • Previsión anticipada: El modelo se construye con datos de entrenamiento limitados.

Dentro de Genesys Cloud, el audio se transcribe casi en tiempo real, con una latencia típica de 3-5 segundos, y es accesible a través de nuestras API de notificaciones .  La transcripción completa de la interacción está disponible en la interfaz de usuario de detalles de la interacción inmediatamente después de la llamada, normalmente en 15 segundos.

Para obtener más información, consulte Idiomas compatibles con Genesys Cloud, ¿Cómo puedo aumentar la precisión de la transcripción de voz? y ¿Cómo puedo asegurarme de que las palabras personalizadas, los nombres de productos y las marcas se transcriben correctamente?.