Operaciones · 9 min de lectura

El cliente nunca manda un número de parte:
cómo cotizar desde foto, VIN y audio de WhatsApp

En autopartes, menos del 15% de las cotizaciones llega con número de parte exacto. El resto llega como foto de la pieza rota, VIN del vehículo, audio describiendo "el ruido cuando frena", o captura de pantalla de otra cotización. Esa traducción la hace hoy un vendedor humano — y le cuesta tiempo, errores y ventas perdidas. Acá está cómo la IA procesa cada formato, qué cambia operacionalmente, y dónde sigue necesitando intervención humana. Aplica para refaccionarias, mayoristas, distribuidoras e importadoras en México, Colombia, Argentina, Chile y Perú.

V

Victoria · Colaboradora digital de cotización

Suplifai · Publicado 23 mayo 2026

Lo que el cliente realmente manda

El cliente no es un experto técnico. Es alguien que conoce el problema — su Tsuru no frena bien, el camión tiene un ruido raro, una pieza se rompió — y manda lo que tiene a la mano. Casi nunca manda el dato que el catálogo necesita.

En autopartes, menos del 15% de las cotizaciones llega con número de parte (OEM o aftermarket) correcto. El otro 85% llega en formatos que un vendedor humano tiene que traducir a un input que pueda buscar. Esa traducción es trabajo invisible que nadie mide pero todos pagan.

El cuello de botella en cotización no es la cantidad de cotizaciones. Es que cada cotización empieza con un input que hay que interpretar antes de poder cotizarlo.

Los 4 formatos de input no-estructurado

Cuatro formatos cubren la práctica totalidad de cotizaciones que llegan por WhatsApp en autopartes. Las proporciones varían por tipo de negocio (la refaccionaria de barrio recibe más fotos, el mayorista más VINs y números) pero la mezcla siempre incluye los cuatro.

Formato 1
Foto de la pieza
~40% de las cotizaciones en autopartes
Ejemplo real
[Foto adjunta de un balero con grasa y polvo, montado todavía en el coche, sin etiqueta visible] "¿Cuánto este?"
Es el formato más común. El cliente saca foto del coche o de la pieza que sacó, muchas veces sin limpiar, mal iluminada o con la pieza aún montada. La etiqueta con el número de parte está raras veces visible. La foto puede ser de la pieza rota, de la pieza nueva que necesita reponer, o del lugar donde va instalada.
Vendedor humano: tarda 3-8 minutos identificando la pieza, pidiendo más ángulos, intentando leer marcas o números. Muchas veces termina pidiendo el VIN al cliente para confirmar variante.
Cómo lo procesa la IA: modelos de visión (multimodales) reconocen la pieza, identifican rasgos distintivos (forma, tamaño relativo, conexiones), leen número de parte si es visible, y proponen identificación con nivel de confianza. Si la confianza es baja, piden información complementaria antes de cotizar — en lugar de adivinar.
Formato 2
VIN del vehículo
~25% de las cotizaciones (sube a ~40% en distribuidoras y mayoristas)
Ejemplo real
"Necesito pastillas de freno delanteras, mi vin es 3VW1K7AJ8FM263451"
El VIN tiene 17 caracteres con codificación estándar internacional (ISO 3779). Permite identificar marca, modelo, año, motor y submodelo del vehículo, y con eso filtrar qué piezas aplican. El cliente lo manda copiado del documento del coche, a veces incompleto o con errores de transcripción (la I confundida con 1, la O con 0). Es uno de los inputs más limpios cuando viene bien — y uno de los más frustrantes cuando viene mal.
Vendedor humano: pega el VIN en software de catálogo (un click cuando funciona, varios cuando el lookup falla por error de transcripción), valida marca/modelo, busca aplicaciones, manda cotización. Tarda 2-5 minutos cuando todo funciona.
Cómo lo procesa la IA: valida el VIN (longitud, dígito verificador, caracteres prohibidos), decodifica contra base de datos (NHTSA + decoders regionales de marcas locales), recupera marca/modelo/año/motor, filtra el catálogo a piezas compatibles, y cotiza. Si el VIN tiene un error obvio de transcripción (I por 1), lo sugiere corregir antes de fallar.
Formato 3
Audio de WhatsApp o texto descriptivo
~15% de las cotizaciones
Ejemplo real (audio)
"Mira, este es el balero que va junto a la rueda, el de delante del lado del conductor, del Tsuru viejito mío del 2008, este se está haciendo ruido cuando freno..."
La descripción coloquial es el formato más rico en información — el cliente cuenta el contexto entero — y al mismo tiempo el más difícil de procesar. Mezcla jerga regional ("balero" en MX, "rodamiento" en AR, "ruleman" en algunos lugares), referencia al vehículo de forma informal, y muchas veces incluye el síntoma ("hace ruido cuando frena") que ayuda a confirmar la pieza.
Vendedor humano: transcribe mentalmente, traduce jerga a términos técnicos, infiere modelo si el cliente fue vago, busca en catálogo. Cuando es un audio largo (>30 seg), suele necesitar escucharlo dos o tres veces. Tarda 4-7 minutos.
Cómo lo procesa la IA: transcribe el audio (modelos como Whisper manejan acentos LATAM con buena precisión), interpreta la jerga regional contextualmente, identifica el vehículo mencionado, infiere la pieza usando tanto el nombre como el síntoma descrito. Si algo es ambiguo, pregunta antes de cotizar.
Formato 4
Captura de pantalla
~20% de las cotizaciones (sube en compradores profesionales y talleres grandes)
Ejemplo real
[Captura de pantalla con una cotización de otro proveedor] "¿Me lo dejas a este precio o más barato?"
Las capturas más comunes son: cotización de otro proveedor (el cliente busca matchear precio), página de catálogo del fabricante (busca confirmación de número de parte), resultado de búsqueda de Google, o screenshot del ERP de un cliente. El cliente lo manda porque ya hizo el trabajo de buscar y quiere acelerar.
Vendedor humano: lee mentalmente la captura, copia los datos al sistema, valida contra catálogo propio, ajusta precio o sustituye marca. Tarda 3-6 minutos. Si la captura es de un competidor, suele tener que tomar una decisión de precio en el momento.
Cómo lo procesa la IA: OCR + parsing estructural extrae números de parte, precios y marcas mencionadas. Si es una cotización competidora, cruza contra catálogo propio y ofrece la pieza directa o un sustituto. Si es página de fabricante, valida el número de parte y aplica la búsqueda.

El costo escondido de la traducción humana

El trabajo de traducir un formato no-estructurado a un input buscable tiene tres costos que no aparecen en el balance:

1. Tiempo: el 30-50% de cada cotización

Sumando los promedios de cada formato (3-8 min para foto, 2-5 para VIN, 4-7 para audio, 3-6 para captura), el tiempo de traducción antes de poder cotizar es entre 3 y 7 minutos por solicitud. Sobre el tiempo total de cotización (que rara vez baja de 10 minutos completos), eso es el 30-50%. Con 1,500 cotizaciones/mes y un promedio de 5 minutos de traducción, son 125 horas/mes de trabajo invisible — equivalente a 0.7 FTE solo en interpretar inputs.

2. Errores: la mitad de las devoluciones vienen de mala identificación

Cuando el vendedor adivina mal una pieza desde una foto o audio ambiguo, el cliente recibe la pieza equivocada. Esa devolución por error de identificación es entre el 40% y 60% de las devoluciones totales del sector. Cada devolución cuesta logística, tiempo del equipo y, lo más caro, confianza del cliente.

3. Pérdida: cuando el vendedor pide más info, el cliente se va

Si el vendedor no logra identificar la pieza con lo que el cliente mandó, pide más información (otra foto, el VIN, marca/modelo). Esa pregunta consume tiempo del cliente — y en autopartes, donde el cliente mandó la misma solicitud a varios proveedores en paralelo, suele ser suficiente para perder la venta con quien sí identificó la pieza al primer intento.

La traducción humana del input no es solo un cuello de botella de capacidad. Es la principal fuente de errores de identificación y de cotizaciones que se pierden por fricción.

Qué cambia operacionalmente cuando lo procesa la IA

Reemplazar la traducción humana por procesamiento automático no es solo "más rápido". Cambia 4 métricas operativas a la vez:

Una distribuidora típica con 1,500 cotizaciones mensuales ve, en los primeros 60 días, una reducción del tiempo de respuesta de ~25 minutos a <1 minuto, devoluciones por error de pieza bajando del 6% al 2-3%, y conversión cotización→pedido subiendo entre 5 y 12 puntos porcentuales.

Lo que la IA todavía no resuelve bien

Honestidad técnica: hay 4 escenarios donde la IA falla o requiere intervención humana, y conviene saberlos antes de implementar:

1. Foto inutilizable

Cuando la foto es completamente borrosa, demasiado oscura, o muestra algo irrelevante (la mano del cliente, parte del piso del taller), la IA no puede inferir. Pide otra foto al cliente. Si el cliente no la puede mandar, escala a humano.

2. VIN incompleto, mal copiado o inexistente

VINs anteriores a 1981 no tienen formato estándar, vehículos importados raros pueden no estar en bases de datos, y errores de transcripción a veces son irrecuperables sin foto del documento. En esos casos la IA pide la foto del VIN o escala.

3. Jerga muy local o ambigua

El vocabulario del sector cambia notablemente entre mercados LATAM: en México un cliente pide un balero de un Tsuru o un mofle para su Chevy; en Colombia el mismo cliente pide un rodamiento de un Renault Logan; en Argentina un ruleman de un VW Gol o un Renault 12; en Chile la jerga se parece a la colombiana pero predominan los Hyundai Accent y Nissan V16; en Perú la mezcla incluye términos de MX y CO con alta penetración de marcas asiáticas. "El que va arriba del cardán" puede ser cualquiera de varias piezas según el vehículo. La IA pregunta antes de cotizar mal — pero esa pregunta es fricción extra que en algunos casos se pierde como venta. La forma de mitigarlo: entrenar al colaborador digital con vocabulario específico del mercado donde opera (un colaborador para MX no debe asumir que conoce el lunfardo argentino).

4. Vehículos custom o de muy bajo volumen

Modificados, importados grises, vehículos de servicio público con piezas especiales — todos casos donde el catálogo estándar no aplica. Se escalan a humano con todo el contexto ya recopilado por la IA (foto, VIN, descripción).

En la práctica, una IA bien implementada maneja entre el 70% y 85% de las cotizaciones extremo a extremo y deriva el resto al equipo humano. La diferencia respecto al status quo: cuando deriva, deriva con todo el contexto. El vendedor no empieza de cero.

Cómo empezar a procesar inputs no-estructurados

El orden recomendado para incorporar este tipo de procesamiento:

Preguntas frecuentes

¿Qué porcentaje de cotizaciones llega con número de parte exacto?

En el sector autopartes en LATAM, menos del 15% de las cotizaciones llega con número de parte (OEM o aftermarket) directo y correcto. El resto llega como foto de la pieza (~40%), VIN del vehículo (~25%), audio o texto descriptivo en jerga (~15%), o captura de pantalla (~5-20% según tipo de cliente). El vendedor humano tiene que traducir todos esos formatos antes de poder cotizar.

¿Puede una IA cotizar desde una foto borrosa o de mala calidad?

Depende del nivel de degradación. La IA actual con visión (modelos multimodales) trabaja con fotos imperfectas — sucias, parcialmente montadas, mal iluminadas — y aún identifica la pieza con razonable precisión si hay rasgos distintivos. Cuando la foto es ilegible, pide más información al cliente en vez de adivinar. Eso reduce devoluciones por error de identificación.

¿Cómo procesa la IA el VIN del vehículo?

El VIN tiene 17 caracteres con codificación estándar internacional. La IA lo valida (longitud, dígito verificador, caracteres prohibidos) y lo decodifica contra bases de datos (NHTSA + decoders regionales para marcas locales). Recupera marca, modelo, año, motor y submodelo, y filtra el catálogo a las piezas compatibles con ese vehículo específico.

¿Funciona con audios en jerga local mexicana, colombiana o argentina?

Los modelos actuales transcriben con buena precisión los principales acentos LATAM y manejan jerga regional común del sector autopartes (balero/rodamiento, chumacera/cojinete, mofle/escape, etc.). Cuando hay un término muy local o ambiguo, la IA pide aclaración antes de cotizar. La precisión mejora cuando el colaborador digital está entrenado con vocabulario específico del mercado donde opera.

¿Cuándo necesito intervención humana en una cotización de este tipo?

Cuatro escenarios: 1) foto inutilizable que el cliente no puede mejorar; 2) pieza muy custom o vehículo importado raro fuera del catálogo estándar; 3) decisión de precio especial (descuento, condiciones de crédito); 4) escalación cuando el cliente quiere hablar con una persona. La IA maneja el 70-85% de las cotizaciones extremo a extremo y deriva el resto al equipo humano con todo el contexto ya recopilado.

¿Querés verlo cotizar desde una foto?

Demo en vivo con tus inputs

30 minutos. Le mandamos a Victoria una foto real, un VIN, un audio de tu día a día — y vemos cómo cotiza en tiempo real.

Agendar demo