Por qué Nemo-RT Pro
Voice AI que funciona como software, no como agua medida. Benchmarked y tuneado para producción — comparable con OpenAI Realtime, Gemini Live, Vapi y Retell AI.
Cero tarifa por minuto
Un deployment, una fee mensual de soporte. 5,000 minutos o 500,000 — tu costo no cambia.
Data residency total
Corre en tu hardware NVIDIA, en tu datacenter. PHI de pacientes y datos de clientes nunca cruzan clouds US.
Latencia sub-second
TTFA sub-second en benchmarks single-user. Comparable a las mejores cloud voice APIs — sin la curva de costo.
Multi-tenant por default
Un NVIDIA DGX sirve a múltiples clientes con prompts, RAG y MCP tools aislados por tenant.
Cómo funciona
Llamada SIP entra. Voice AI agent que ejecuta acciones reales. Todo en tu hardware.
SIP / Asterisk
Tu Asterisk PBX (o SIP trunk compatible) puentea la llamada vía ARI WebSocket a Nemo-RT Pro.
VAD + STT
Silero VAD + NeMo Conformer CTC bilingüe EN-ES. Detección de idioma acústica y léxica por turno.
LLM + MCP
Qwen3.6-35B-A3B-FP8 sobre vLLM con framework completo de MCP tool-calling y RAG por tenant.
TTS de regreso
NeMo FastPitch + HiFiGAN streamea audio de vuelta al caller. 174 voces latinas en español más inglés.
Ningún dato sale de tu datacenter. Sin fees de cloud APIs. Stack completo bajo tu control — ASR, LLM, TTS, integración SIP y MCP tool calling entregados como un producto coherente.
Construido para producción
Ingeniería basada en benchmarks. Cada componente elegido y tuneado para tráfico real.
TTFA en benchmarks single-user
Conversaciones concurrentes probadas, cero errores
Usuarios finales con overbooking 10:1 sobre un DGX
Mejora en TTFA vía TTS batch sizing
Model stack
- LLM: Qwen3.6-35B-A3B-FP8 vía vLLM (FP8 quantizado · MoE 3B active por token)
- STT: NeMo Conformer CTC bilingüe EN-ES
- TTS: NeMo FastPitch + HiFiGAN (174 voces latinas en español + 10 voces en inglés)
- VAD: Silero con umbrales configurables
- MCP framework: 5 formatos de parsing de tool-call, secuencias multi-turno, RAG por tenant
Hardware y capacidad
- Hardware recomendado: NVIDIA DGX Spark (GB10 Blackwell, 128GB unified memory) — ideal para el modelo 35B MoE en FP8. ~$4,700 MSRP desde cualquier partner NVIDIA. Compatible: cualquier NVIDIA Hopper (H100/H200) o Blackwell (B100, DGX Station) con soporte FP8 y ≥80GB VRAM.
- Capacidad por DGX Spark: 20 conversaciones concurrentes en vivo · ratio de overbooking 10:1 → ~200 tenants registrados por caja (economía estándar de voice trunking — registrás toda tu base de tenants, la capacidad real-time escala al peak hour).
- Path de escalamiento: NVIDIA DGX Station (multi-GPU Blackwell) para 100+ workloads concurrentes en producción · o múltiples DGX Sparks en paralelo para horizontal scaling.
- Instalación: Docker Compose · script de un comando · Caddy con HTTPS automático.
- Stack: FastAPI + WebSocket, Python 3.11+, ARI bridge en Node.js.
- Go-live: 2 semanas desde firma de contrato.
- Hardware sourcing: BYO desde cualquier reseller NVIDIA, o te conectamos con un distribuidor validado en tu país — servicio gratis, sin markup (moneda local · warranty local · logística local). Construyendo una red de resellers verificados en LATAM y mercados hispanos en US.
Nemo-RT Pro vs cloud voice AI
Misma calidad conversacional. Economía y compliance fundamentalmente distintos.
| Dimensión | Nemo-RT Pro | OpenAI Realtime | Vapi | Retell AI |
|---|---|---|---|---|
| Deployment | On-prem, tu hardware | Solo cloud | Solo cloud | Solo cloud |
| Modelo de pricing | Deployment + mensual fijo | ~$0.30/min | $0.20 - $0.33/min | ~$0.11/min |
| Data residency | Tu datacenter | Hosteado en US | Hosteado en US | Hosteado en US |
| Multi-tenant nativo | Sí (RAG + MCP por tenant) | No (lo construís vos) | Limitado | Limitado |
| Calidad español LATAM | 174 voces latinas | Multilingüe genérico | Castellano por default | Castellano por default |
| Año 1 a 20K min/mes | $28K early-access | ~$72K | $48K - $80K | ~$30K |
Bajo 15K min/mes, los proveedores 100% cloud pueden ser más baratos. Nemo-RT Pro brilla a 20K+ min/mes, operadores multi-tenant, verticales regulados y casos de uso Spanish-first.
En producción en un operador SIP trunk LATAM — desde Q1 2026
Operador regional de telecom corriendo agendamiento médico automatizado para una red de clínicas en crecimiento, 24/7, en español LATAM nativo.
- 5 clínicas como tenants en un solo NVIDIA DGX, multi-tenant desde día uno
- 200+ usuarios finales atendidos con overbooking 10:1, cero errores en stress tests
- 3 MCPs productizados: scheduling (mcp-citas), escalación a humano (mcp-transferencias), encuestas por voz (mcp-encuestas) — más integraciones custom (registro civil, lookup de cédula)
- RAG por tenant con documentos, system prompts y API keys propios
- Cero tarifa por minuto en cloud AI — eliminada la línea entera de costo variable (sin facturas de Vapi / Retell / Twilio / OpenAI)
- Data residency 100% — el PHI de pacientes nunca sale de su datacenter
"Evaluamos todas las plataformas de voice AI mayores y ninguna encajaba: deployment on-premise, español LATAM nativo, multi-tenant para nuestros clientes-clínica, y sin tarifa por minuto. Nemo-RT Pro fue la única opción que cumplía con todo."
Capacidades corriendo en producción hoy
Construido para estos operadores
Donde la historia de economía y compliance de voice AI on-prem pega más fuerte.
Agendamiento médico
Clínicas y redes de salud automatizando agendamiento 24/7 en español LATAM nativo con RAG y MCPs de scheduling.
Automatización de call center
Contact centers deflectando llamadas rutinarias de agentes humanos, con MCPs de call-transfer para escalar cuando sea necesario.
SIP trunks con AI
Operadores SIP revendiendo voice AI multi-tenant a su base de clientes sin presión de margen por minuto.
Servicios de voz para gobierno
Municipalidades y entidades públicas que necesitan acceso por voz en español nativo con requisitos estrictos de data residency.
Pricing transparente. Sin tarifa por minuto.
Pagás lo mismo corras 5,000 minutos o 500,000 por mes. Go-live target: 2 semanas desde firma de contrato.
Early-access
Primeros 10 clientes · a cambio de case study.
Año 1: $22,000 · Año 2+: $12,000/año recurrente
Hardware (DGX Spark ~$4,700 MSRP) aparte — ver sección Hardware y capacidad.
Todo lo que incluye PRO, más:
- Pricing lockeado 24 meses desde firma
- Acceso prioritario a features beta
- Input directo a roadmap
- Colaboración en case study (anonimizable)
PRO
Tier comercial estándar · desde Q3 2026.
Año 1: $30,000 · Año 2+: $18,000/año recurrente
Hardware (DGX Spark ~$4,700 MSRP) aparte — ver sección Hardware y capacidad.
Plataforma completa, sin add-ons:
- Multi-tenant nativo · tenants ilimitados
- Biblioteca de voces español + inglés completa (174 latinas + EN TTS)
- Qwen3.6-35B-A3B-FP8 reasoning vía vLLM
- RAG + MCP tool-calling por tenant
- 3 MCPs productizados: citas, transferencias, encuestas
- Software updates + nuevas voces + nuevos módulos MCP
- Cero tarifa por minuto
- Hasta 20h/mes de engineering support (SLA 24h)
- Go-live target: 2 semanas
Enterprise
Deployments mission-critical · bancos, gobierno, industrias reguladas.
Año 1: Desde $85,000 · Año 2+: Desde $60,000/año recurrente
Hardware NVIDIA DGX cluster cotizado por deployment (multi-node).
Todo lo que incluye PRO, más:
- NVIDIA DGX cluster deployment (multi-node horizontal scaling)
- Orquestación de cluster + GPU pool management
- Voice cloning custom (fine-tuning de voz de marca)
- White-label (tu marca, tu dominio)
- Desarrollo de MCPs custom (CRM, billing, ticketing)
- Failover multi-región · disaster recovery
- SLA 99.5% con service credits
- Soporte 24/7 por teléfono + canal Slack
- Solutions engineer dedicado + quarterly business reviews
- Soporte de compliance SOC 2 / HIPAA / ISO 27001
- Deployment on-site + training del equipo IT
- Términos legales, de auditoría y compliance custom
Todos los precios en USD. Empresas LATAM pueden facturar en moneda local vía nuestro US LLC. Ver sección Hardware y capacidad arriba para specs, capacidad por caja y opciones de procurement.
Credenciales y track record en producción
Credenciales del founder y señal defendible de producción en 10+ países.
36
GitHub stars en asterisk_to_openai_rt
68
Forks en el repo asterisk_to_openai_rt
10+
Países con deployments en producción
AI Infrastructure & Operations (2026-2028)
Generative AI Essentials
Speech API certificado
Multicloud Network Associate
Startup School 2020 alumni
Miembro activo · Aprobado Mayo 2026
Preguntas frecuentes
¿Listo para ver si Nemo-RT Pro encaja en tu operación?
Llamada discovery de 30 minutos. Sin slides. Miramos tu volumen, tus necesidades de compliance, tu hardware, y te decimos honestamente si esto encaja — o qué te conviene más.