robot call center

El reconocimiento automático de voz está a punto de hacer que llamar al servicio de atención al cliente sea un poco más agradable

La inteligencia artificial y el aprendizaje automático están configurados para mejorar seriamente las experiencias de los centros de llamadas y los chatbots. Esta es la tecnología que está disponible en línea ahora y qué esperar en el futuro.

Se estima que el mercado de la IA alcanzará casi los 4 billones de dólares para fines de 2022 y un gran contribuyente a este crecimiento del mercado son las comunicaciones inteligentes en la nube. Las empresas de comunicaciones están invirtiendo en soluciones inteligentes para aumentar la eficacia y la eficiencia de las aplicaciones de telefonía, como el seguimiento de llamadas, los centros de contacto, los chatbots y más. Una de las soluciones inteligentes más prometedoras para las comunicaciones en la nube es la tecnología de reconocimiento automático de voz.

Leer más: ¿Qué no puede hacer la IA?

¿Qué es el reconocimiento automático de voz?

El reconocimiento automático de voz, o ASR, utiliza tecnología de aprendizaje profundo, aprendizaje automático y/o inteligencia artificial para procesar el habla humana en un texto legible. Los avances recientes en el aprendizaje profundo y otros campos relacionados han aumentado significativamente la precisión y la facilidad de uso de los sistemas ASR, aumentando su utilidad y, por lo tanto, su posterior integración en nuestra vida diaria. Vemos aplicaciones ASR en todo, desde subtítulos en redes sociales hasta transcripciones de podcasts y monitoreo de medios.

Las API de voz a texto funcionan para acelerar la innovación en la industria de las comunicaciones a través de dos vías principales: la transcripción de audio y la inteligencia de audio.

Transcripción de audio

La transcripción de voz a texto a través de API inteligentes permite a las empresas convertir archivos de audio y/o video en un archivo de texto rápidamente y con precisión humana. Esto se puede hacer tanto de forma asíncrona, donde las transmisiones de audio o video grabadas previamente se transcriben después del hecho, o en tiempo real, donde la API transmite las transcripciones dentro de unos pocos milisegundos de cada palabra pronunciada.

Además, algunas API ofrecen otras funciones que aumentan tanto la precisión como la legibilidad de las transcripciones. Estos incluyen la diarización de los oradores, o etiquetas de los oradores, que detectan automáticamente la cantidad de oradores en cada transmisión de audio o video y asignan con precisión cada palabra o segmento de texto al orador correspondiente. Las características como el vocabulario personalizado, en el que un usuario agrega una lista de términos y/o ortografías exclusivas de la empresa o industria, también aumentan significativamente la precisión de una transcripción.

Las características adicionales que aumentan la precisión incluyen:

  • Reconocimiento de palabras de relleno (uh, um, etc.)
  • Puntuación automática y mayúsculas y minúsculas
  • Desglose automático de transcripciones en párrafos y oraciones
  • Filtrado de blasfemias
  • Búsqueda de palabras

Y más.

Inteligencia de audio

El ROI real para las comunicaciones en la nube se encuentra en las funciones adicionales respaldadas por IA proporcionadas por algunas API de voz a texto, denominadas funciones de inteligencia de audio. Estas potentes funciones ayudan a crear análisis más inteligentes, lo que brinda a las empresas que invierten en ellas una importante ventaja competitiva.

Por ejemplo, un proveedor de soluciones saas utiliza inteligencia de audio para potenciar su software Conversation Intelligence que proporciona pago por clic, SEO, seguimiento de llamadas de marketing e información automatizada para llamadas telefónicas. El proveedor no solo puede cobrar más por su producto inteligente, sino que también permite que otros optimicen su inversión en marketing y aumenten el ROI en ubicaciones de anuncios más específicas.

Otra empresa de centros de llamadas utiliza inteligencia de audio para lo que denominan » enrutamiento de comportamiento predictivo » de sus llamadas. El enrutamiento de comportamiento predictivo “analiza los patrones de habla de las personas que llaman y los empareja con personas en el centro de llamadas que tienen tipos de personalidad ‘compatibles’”, lo que aumenta significativamente la cantidad de llamadas exitosas que se realizan y, a su vez, aumenta la lealtad del cliente.

Whatconverts, una empresa de informes y seguimiento de clientes potenciales, utiliza la transcripción de voz a texto para crear automáticamente transcripciones de llamadas precisas. Luego, la empresa aplica la inteligencia de audio para calificar a los clientes potenciales, identificar a los clientes potenciales que se pueden citar y marcar a los clientes potenciales para su seguimiento. Este proceso automatizado acelera el proceso de calificación de clientes potenciales y aumenta las tasas de conversión.

Profundicemos en las diferentes funciones de inteligencia de audio en el mercado actual:

Funciones actuales de inteligencia de audio

  • Análisis de los sentimientos
  • Detección de temas
  • Detección de seguridad de contenido
  • Redacción de PII
  • Resumen
  • Detección de entidades

 Análisis de los sentimientos

El análisis de opinión detecta la opinión, generalmente positiva, negativa o neutra, de los segmentos de voz en un archivo de audio o video. Para los centros de llamadas, el análisis de sentimientos se usa a menudo para analizar los sentimientos atribuidos en las conversaciones entre el cliente y el agente. Esto podría ser para realizar un mejor seguimiento de las actitudes de los clientes hacia un producto, servicio o incluso el agente, ayudando a las empresas a tomar decisiones de marketing más informadas, facilitar una mejor capacitación de los agentes y mejorar la satisfacción del cliente.

Detección de temas

La detección de temas identifica y etiqueta automáticamente los temas en archivos de audio o video, como lo indica la taxonomía de contenido de la IAB (Oficina de publicidad interactiva) . Con la detección de temas, las empresas de comunicaciones pueden analizar las transcripciones más fácilmente para participar de manera más eficaz en la publicidad y la orientación contextuales y conductuales. Esta orientación inteligente se traduce directamente en mayores conversiones de clientes potenciales.

Detección de seguridad de contenido

La detección de seguridad de contenido permite a los usuarios identificar y filtrar contenido de audio o video en busca de información delicada y dañina, como violencia, incitación al odio, alcohol, drogas y más. Esto es especialmente útil para la moderación de contenido en línea y para examinar ubicaciones de publirreportajes.

Redacción de información de identificación personal

La redacción de la información de identificación personal (PII) identifica y elimina automáticamente la PII, como direcciones, números de seguridad social y números de tarjetas de crédito de una transcripción. Esto ayuda a las empresas de comunicaciones a adherirse mejor a las leyes de privacidad y seguridad oa cumplir con los requisitos de las políticas internas, para que los clientes puedan estar seguros de que todos los datos se manejan con el debido cuidado.

Resumen

El resumen divide las transcripciones de archivos de audio o video en capítulos lógicos (como cuando la conversación cambia de tema) y luego genera automáticamente un resumen para cada uno de estos capítulos, algo así como las Notas de Cliff de una transcripción. Para los centros de llamadas, esto puede hacer que las llamadas telefónicas sean más fáciles de navegar y facilitar el control de calidad cuando sea necesario. Las plataformas de reuniones virtuales utilizan capítulos automáticos para obtener fácilmente resúmenes de reuniones más digeribles, para debates post mórtem y para aplicaciones analíticas.

Detección de entidades

La detección de entidades localiza y clasifica entidades dentro de un texto de transcripción. Por ejemplo, Seattle es una entidad que se clasificaría como una ubicación. Las plataformas de comunicaciones utilizan la detección de entidades para completar automáticamente ciertos campos, categorizar y analizar conversaciones y mejorar el tiempo de respuesta del cliente. Los bots de voz utilizan la detección de entidades para desencadenar acciones que automatizan y personalizan las interacciones en función de una entidad específica detectada, como el nombre de una persona o empresa.

El futuro de las comunicaciones en la nube

Tanto la transcripción de voz a texto como las funciones de inteligencia de audio son áreas prometedoras de inversión para las empresas de comunicaciones en la nube que buscan impulsar la innovación en el campo, maximizar el ROI y asegurar una posición competitiva.

Las características adicionales de ASR respaldadas por IA en proceso solo estimularán aún más esta innovación. Busque funciones como la detección de emociones, que permitirá a las empresas analizar emociones más específicas como la ira, la euforia, la frustración o la satisfacción en un texto de transcripción, así como el reconocimiento de intenciones y más para ayudar al poder analítico y avanzar aún más en la industria.

Lea más: Los 3 errores más grandes que se deben evitar al contratar ingenieros de inteligencia artificial y aprendizaje automático