La API de Reconocimiento de Voz es una herramienta poderosa y precisa diseñada para transformar palabras habladas en texto organizado. Utilizando tecnología avanzada de reconocimiento de voz e inteligencia artificial, proporciona transcripciones de alta calidad para una amplia gama de industrias y aplicaciones. Ya sea procesando discurso en vivo o archivos de audio pregrabados, esta API garantiza una conversión confiable y precisa con un mínimo de errores.
Un aspecto destacado de esta API es su soporte multilingüe, que permite a los usuarios transcribir audio en múltiples idiomas con una precisión excepcional. Esta función la convierte en una herramienta esencial para quienes requieren transcripciones en varios idiomas.
{"success":true,"audio_file":"https://s33.aconvert.com/convert/p3r68-cdx67/fx4z0-q5m8m.mp3","output":{"text":"Ciao a tutti, come state?","result":{"text":"Ciao a tutti, come state?","word_count":5,"vtt":"WEBVTT\n\n00.000 --> 01.860\nCiao a tutti, come state?","words":[{"word":"Ciao","start":0,"end":0.23999999463558197},{"word":"a","start":0.23999999463558197,"end":0.4000000059604645},{"word":"tutti,","start":0.4000000059604645,"end":1.0800000429153442},{"word":"come","start":1.0800000429153442,"end":1.2799999713897705},{"word":"state?","start":1.2799999713897705,"end":1.8600000143051147}]}}}
curl --location --request POST 'https://zylalabs.com/api/6370/voice+recognition+api/9135/audio+to+text?url=https://s33.aconvert.com/convert/p3r68-cdx67/fx4z0-q5m8m.mp3' --header 'Authorization: Bearer YOUR_API_KEY'
| Encabezado | Descripción |
|---|---|
Autorización
|
[Requerido] Debería ser Bearer access_key. Consulta "Tu Clave de Acceso a la API" arriba cuando estés suscrito. |
Sin compromiso a largo plazo. Mejora, reduce o cancela en cualquier momento. La Prueba Gratuita incluye hasta 50 solicitudes.
La API de Reconocimiento de Voz devuelve texto transcrito del archivo de audio proporcionado. La salida incluye el discurso reconocido convertido en un formato de texto estructurado, lo que permite a los usuarios acceder y utilizar fácilmente el contenido hablado.
Los datos de respuesta suelen incluir campos como "transcripción" (el texto convertido), "idioma" (el idioma detectado del audio) y "confianza" (una puntuación que indica la precisión de la transcripción).
Los usuarios pueden especificar parámetros como "audio_url" (la URL del archivo de audio) y "language" (para indicar el idioma del audio). Estos parámetros ayudan a personalizar el proceso de transcripción para una mejor precisión.
Los datos de respuesta están organizados en un formato JSON, con pares de clave-valor que representan los resultados de la transcripción. Esta estructura permite un fácil análisis e integración en aplicaciones, facilitando el procesamiento o la visualización adicionales.
Los casos de uso típicos incluyen transcribir reuniones, generar subtítulos para videos, crear registros escritos de entrevistas y habilitar comandos de voz en aplicaciones. El soporte multilingüe de la API mejora su utilidad en diferentes industrias.
La precisión de los datos se mantiene a través de algoritmos avanzados de reconocimiento de voz y entrenamiento continuo en conjuntos de datos diversos. Actualizaciones regulares y controles de calidad aseguran que la API se adapte a varios acentos y patrones de habla.
Los usuarios pueden utilizar los datos devueltos integrando el texto transcrito en sus aplicaciones para búsqueda, análisis o visualización. El formato estructurado permite una manipulación fácil, como resaltar palabras clave o generar resúmenes.
Los patrones de datos estándar incluyen oraciones coherentes, puntuación y formato adecuado basado en el contenido hablado. Los usuarios pueden esperar variaciones en longitud y complejidad dependiendo de la calidad del audio y la claridad del habla.
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
57ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
394ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
148ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
13.953ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.277ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
77ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
0ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
299ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
8.780ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
547ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
2.989ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
1.138ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
171ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
226ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
387ms
Nivel de Servicio:
89%
Tiempo de Respuesta:
345ms
Nivel de Servicio:
100%
Tiempo de Respuesta:
449ms