Voice AI que escala sin tarifa por minuto.

Nemo-RT Pro es voice AI en español e inglés que corre 100% en tu propia infraestructura NVIDIA: multi-tenant, sub-second, cero tarifa por minuto — la única forma de escalar voice AI sin que los costos por minuto se coman tu margen.

Construido por INFINITO CLOUD (US LLC). En producción en un operador SIP trunk LATAM sirviendo 200+ usuarios finales en múltiples tenants sobre un solo NVIDIA DGX.

Por qué Nemo-RT Pro

Voice AI que funciona como software, no como agua medida. Benchmarked y tuneado para producción — comparable con OpenAI Realtime, Gemini Live, Vapi y Retell AI.

Cero tarifa por minuto

Un deployment, una fee mensual de soporte. 5,000 minutos o 500,000 — tu costo no cambia.

Data residency total

Corre en tu hardware NVIDIA, en tu datacenter. PHI de pacientes y datos de clientes nunca cruzan clouds US.

Latencia sub-second

TTFA sub-second en benchmarks single-user. Comparable a las mejores cloud voice APIs — sin la curva de costo.

Multi-tenant por default

Un NVIDIA DGX sirve a múltiples clientes con prompts, RAG y MCP tools aislados por tenant.

Cómo funciona

Llamada SIP entra. Voice AI agent que ejecuta acciones reales. Todo en tu hardware.

1
SIP / Asterisk

Tu Asterisk PBX (o SIP trunk compatible) puentea la llamada vía ARI WebSocket a Nemo-RT Pro.

2
VAD + STT

Silero VAD + NeMo Conformer CTC bilingüe EN-ES. Detección de idioma acústica y léxica por turno.

3
LLM + MCP

Qwen3.6-35B-A3B-FP8 sobre vLLM con framework completo de MCP tool-calling y RAG por tenant.

4
TTS de regreso

NeMo FastPitch + HiFiGAN streamea audio de vuelta al caller. 174 voces latinas en español más inglés.

Ningún dato sale de tu datacenter. Sin fees de cloud APIs. Stack completo bajo tu control — ASR, LLM, TTS, integración SIP y MCP tool calling entregados como un producto coherente.

Construido para producción

Ingeniería basada en benchmarks. Cada componente elegido y tuneado para tráfico real.

<1s

TTFA en benchmarks single-user

20+

Conversaciones concurrentes probadas, cero errores

200+

Usuarios finales con overbooking 10:1 sobre un DGX

39%

Mejora en TTFA vía TTS batch sizing

Model stack

  • LLM: Qwen3.6-35B-A3B-FP8 vía vLLM (FP8 quantizado · MoE 3B active por token)
  • STT: NeMo Conformer CTC bilingüe EN-ES
  • TTS: NeMo FastPitch + HiFiGAN (174 voces latinas en español + 10 voces en inglés)
  • VAD: Silero con umbrales configurables
  • MCP framework: 5 formatos de parsing de tool-call, secuencias multi-turno, RAG por tenant

Hardware y capacidad

  • Hardware recomendado: NVIDIA DGX Spark (GB10 Blackwell, 128GB unified memory) — ideal para el modelo 35B MoE en FP8. ~$4,700 MSRP desde cualquier partner NVIDIA. Compatible: cualquier NVIDIA Hopper (H100/H200) o Blackwell (B100, DGX Station) con soporte FP8 y ≥80GB VRAM.
  • Capacidad por DGX Spark: 20 conversaciones concurrentes en vivo · ratio de overbooking 10:1 → ~200 tenants registrados por caja (economía estándar de voice trunking — registrás toda tu base de tenants, la capacidad real-time escala al peak hour).
  • Path de escalamiento: NVIDIA DGX Station (multi-GPU Blackwell) para 100+ workloads concurrentes en producción · o múltiples DGX Sparks en paralelo para horizontal scaling.
  • Instalación: Docker Compose · script de un comando · Caddy con HTTPS automático.
  • Stack: FastAPI + WebSocket, Python 3.11+, ARI bridge en Node.js.
  • Go-live: 2 semanas desde firma de contrato.
  • Hardware sourcing: BYO desde cualquier reseller NVIDIA, o te conectamos con un distribuidor validado en tu país — servicio gratis, sin markup (moneda local · warranty local · logística local). Construyendo una red de resellers verificados en LATAM y mercados hispanos en US.

Nemo-RT Pro vs cloud voice AI

Misma calidad conversacional. Economía y compliance fundamentalmente distintos.

Dimensión Nemo-RT Pro OpenAI Realtime Vapi Retell AI
Deployment On-prem, tu hardware Solo cloud Solo cloud Solo cloud
Modelo de pricing Deployment + mensual fijo ~$0.30/min $0.20 - $0.33/min ~$0.11/min
Data residency Tu datacenter Hosteado en US Hosteado en US Hosteado en US
Multi-tenant nativo Sí (RAG + MCP por tenant) No (lo construís vos) Limitado Limitado
Calidad español LATAM 174 voces latinas Multilingüe genérico Castellano por default Castellano por default
Año 1 a 20K min/mes $28K early-access ~$72K $48K - $80K ~$30K

Bajo 15K min/mes, los proveedores 100% cloud pueden ser más baratos. Nemo-RT Pro brilla a 20K+ min/mes, operadores multi-tenant, verticales regulados y casos de uso Spanish-first.

En producción en un operador SIP trunk LATAM — desde Q1 2026

Operador regional de telecom corriendo agendamiento médico automatizado para una red de clínicas en crecimiento, 24/7, en español LATAM nativo.

  • 5 clínicas como tenants en un solo NVIDIA DGX, multi-tenant desde día uno
  • 200+ usuarios finales atendidos con overbooking 10:1, cero errores en stress tests
  • 3 MCPs productizados: scheduling (mcp-citas), escalación a humano (mcp-transferencias), encuestas por voz (mcp-encuestas) — más integraciones custom (registro civil, lookup de cédula)
  • RAG por tenant con documentos, system prompts y API keys propios
  • Cero tarifa por minuto en cloud AI — eliminada la línea entera de costo variable (sin facturas de Vapi / Retell / Twilio / OpenAI)
  • Data residency 100% — el PHI de pacientes nunca sale de su datacenter
Agenda una llamada de 30 min

"Evaluamos todas las plataformas de voice AI mayores y ninguna encajaba: deployment on-premise, español LATAM nativo, multi-tenant para nuestros clientes-clínica, y sin tarifa por minuto. Nemo-RT Pro fue la única opción que cumplía con todo."

— CTO de un operador regional LATAM de voice/SIP
Producción verificada 5 clínicas 200+ usuarios 24/7 desde Q1 2026
Capacidades corriendo en producción hoy
Asistentes con system prompt Búsqueda RAG sobre PDFs, TXTs y URLs mcp-citas · scheduling mcp-transferencias · escalación a humano mcp-encuestas · encuestas por voz y triage

Construido para estos operadores

Donde la historia de economía y compliance de voice AI on-prem pega más fuerte.

Agendamiento médico

Clínicas y redes de salud automatizando agendamiento 24/7 en español LATAM nativo con RAG y MCPs de scheduling.

Automatización de call center

Contact centers deflectando llamadas rutinarias de agentes humanos, con MCPs de call-transfer para escalar cuando sea necesario.

SIP trunks con AI

Operadores SIP revendiendo voice AI multi-tenant a su base de clientes sin presión de margen por minuto.

Servicios de voz para gobierno

Municipalidades y entidades públicas que necesitan acceso por voz en español nativo con requisitos estrictos de data residency.

Pricing transparente. Sin tarifa por minuto.

Pagás lo mismo corras 5,000 minutos o 500,000 por mes. Go-live target: 2 semanas desde firma de contrato.

Early-access

Early-access

Primeros 10 clientes · a cambio de case study.

$10,000 deployment
+ $999 / mes soporte

Año 1: $22,000 · Año 2+: $12,000/año recurrente

Hardware (DGX Spark ~$4,700 MSRP) aparte — ver sección Hardware y capacidad.

Todo lo que incluye PRO, más:

  • Pricing lockeado 24 meses desde firma
  • Acceso prioritario a features beta
  • Input directo a roadmap
  • Colaboración en case study (anonimizable)
Agenda discovery call
Más popular

PRO

Tier comercial estándar · desde Q3 2026.

$12,000 deployment
+ $1,499 / mes soporte

Año 1: $30,000 · Año 2+: $18,000/año recurrente

Hardware (DGX Spark ~$4,700 MSRP) aparte — ver sección Hardware y capacidad.

Plataforma completa, sin add-ons:

  • Multi-tenant nativo · tenants ilimitados
  • Biblioteca de voces español + inglés completa (174 latinas + EN TTS)
  • Qwen3.6-35B-A3B-FP8 reasoning vía vLLM
  • RAG + MCP tool-calling por tenant
  • 3 MCPs productizados: citas, transferencias, encuestas
  • Software updates + nuevas voces + nuevos módulos MCP
  • Cero tarifa por minuto
  • Hasta 20h/mes de engineering support (SLA 24h)
  • Go-live target: 2 semanas
Contactar ventas

Enterprise

Deployments mission-critical · bancos, gobierno, industrias reguladas.

Desde $25,000 deployment
+ Desde $4,999 / mes soporte

Año 1: Desde $85,000 · Año 2+: Desde $60,000/año recurrente

Hardware NVIDIA DGX cluster cotizado por deployment (multi-node).

Todo lo que incluye PRO, más:

  • NVIDIA DGX cluster deployment (multi-node horizontal scaling)
  • Orquestación de cluster + GPU pool management
  • Voice cloning custom (fine-tuning de voz de marca)
  • White-label (tu marca, tu dominio)
  • Desarrollo de MCPs custom (CRM, billing, ticketing)
  • Failover multi-región · disaster recovery
  • SLA 99.5% con service credits
  • Soporte 24/7 por teléfono + canal Slack
  • Solutions engineer dedicado + quarterly business reviews
  • Soporte de compliance SOC 2 / HIPAA / ISO 27001
  • Deployment on-site + training del equipo IT
  • Términos legales, de auditoría y compliance custom
Contactar ventas

Todos los precios en USD. Empresas LATAM pueden facturar en moneda local vía nuestro US LLC. Ver sección Hardware y capacidad arriba para specs, capacidad por caja y opciones de procurement.

Credenciales y track record en producción

Credenciales del founder y señal defendible de producción en 10+ países.

36

GitHub stars en asterisk_to_openai_rt

68

Forks en el repo asterisk_to_openai_rt

10+

Países con deployments en producción

NVIDIA-Certified Associate
AI Infrastructure & Operations (2026-2028)
AWS Partner
Generative AI Essentials
Google Cloud
Speech API certificado
Aviatrix ACE
Multicloud Network Associate
Y Combinator
Startup School 2020 alumni
NVIDIA Inception
Miembro activo · Aprobado Mayo 2026

Preguntas frecuentes

Recomendamos NVIDIA DGX Spark (GB10 Blackwell, 128GB unified memory) — ideal para nuestro modelo de reasoning Qwen3.6-35B-A3B-FP8. También compatible: cualquier card datacenter NVIDIA con soporte FP8 y ≥80GB VRAM (H100/H200 80GB, B100, DGX Station). No vendemos hardware — lo comprás de NVIDIA o tu reseller preferido; podemos conectarte con un distribuidor validado en tu país sin markup. Nosotros aportamos software, deployment y soporte.

Go-live target: 2 semanas desde firma de contrato. La instalación core toma típicamente 2-4 horas sobre un DGX listo. El tiempo restante cubre setup de tenants, desarrollo de MCPs custom si hace falta, pilot testing con tráfico real, y training del equipo.

Sí — y viene incluido sin costo adicional. Nemo-RT Pro incluye un ARI bridge en Node.js pre-construido que funciona out-of-the-box con Asterisk 20+, FreePBX y 3CX vía SIP trunk. Otros PBX se soportan vía bridge SIP-to-WebSocket. La integración SIP/ARI estándar es parte de todo deployment. Solo integraciones custom a sistemas no-SIP (PBX propietarios, gateways TDM legacy) se cotizan como servicio aparte.

Hasta 20 horas por mes de engineering time directo (tier Pro) — para configuración de tenants, tuning de MCPs, ayuda con integraciones y preguntas operativas. Además: security patches y respuesta a CVEs según necesidad, nuevos módulos MCP y updates de la biblioteca de voces conforme se publican, updates del modelo LLM cuando salgan releases estables, priority bug fixes para issues que impacten producción, dashboards de health mensuales automatizados, y respuesta a incidentes por email/Slack en 24h.

Tu deployment sigue corriendo. Sos dueño del hardware y la licencia del software queda instalada. Lo que se detiene: patches mensuales, nuevas features, engineering support, acceso a nuevos MCPs. Lo que sigue funcionando: todo lo instalado hoy corre indefinidamente. Muy distinto del cloud donde "dejar de pagar" = "servicio off".

Sí. Prepago anual: 10% off. Prepago 2 años: 15%. Prepago 3 años: 20%. El partner program paga 33% de margen sobre deals sourceados. Para Enterprise (white-label + SLA 99.5%) o deployments grandes multi-región, armamos una cotización custom durante el discovery call.

¿Listo para ver si Nemo-RT Pro encaja en tu operación?

Llamada discovery de 30 minutos. Sin slides. Miramos tu volumen, tus necesidades de compliance, tu hardware, y te decimos honestamente si esto encaja — o qué te conviene más.