El cliente nunca manda un número de parte: cómo cotizar desde foto, VIN y audio de WhatsApp

Q: ¿Qué porcentaje de cotizaciones llega con número de parte exacto?

En el sector autopartes en LATAM, menos del 15% de las cotizaciones llega con número de parte (OEM o aftermarket) directo y correcto. El resto llega como foto de la pieza (~40%), VIN del vehículo (~25%), audio o texto descriptivo en jerga (~15%), o captura de pantalla de otra fuente (~5%). El vendedor humano tiene que traducir todos esos formatos a un input que pueda buscar en el catálogo.

Q: ¿Puede una IA cotizar desde una foto borrosa o de mala calidad?

Depende del nivel de degradación. La IA actual con visión (modelos multimodales) puede trabajar con fotos imperfectas — sucias, parcialmente montadas, mal iluminadas — y aún identificar la pieza con razonable precisión si hay rasgos distintivos. Cuando la foto es ilegible o muy parcial, la IA pide más información al cliente (otra foto, ángulo diferente, número visible) en vez de adivinar. Eso reduce devoluciones por error de identificación.

Q: ¿Funciona con audios en jerga local mexicana, colombiana o argentina?

Los modelos actuales transcriben con buena precisión los principales acentos LATAM y manejan jerga regional común del sector autopartes (balero/rodamiento, chumacera/cojinete, mofle/escape, soporte/silentblock, etc.). Cuando hay un término muy local o ambiguo, la IA pide aclaración antes de cotizar — mismo principio que con foto borrosa. La precisión mejora cuando el agente está entrenado con vocabulario específico del mercado donde opera.

Q: ¿Cuándo necesito intervención humana en una cotización de este tipo?

Cuatro escenarios siguen siendo intervención humana: 1) foto inutilizable que el cliente no puede mejorar; 2) pieza muy custom o vehículo importado raro fuera del catálogo estándar; 3) decisión de precio especial (descuento, condiciones de crédito); 4) escalación cuando el cliente quiere hablar con una persona. La IA maneja el 70-85% de las cotizaciones de extremo a extremo y deriva el resto al equipo humano con todo el contexto ya recopilado.

Lo que el cliente realmente manda

El cliente no es un experto técnico. Es alguien que conoce el problema — su Tsuru no frena bien, el camión tiene un ruido raro, una pieza se rompió — y manda lo que tiene a la mano. Casi nunca manda el dato que el catálogo necesita.

En autopartes, menos del 15% de las cotizaciones llega con número de parte (OEM o aftermarket) correcto. El otro 85% llega en formatos que un vendedor humano tiene que traducir a un input que pueda buscar. Esa traducción es trabajo invisible que nadie mide pero todos pagan.

El cuello de botella en cotización no es la cantidad de cotizaciones. Es que cada cotización empieza con un input que hay que interpretar antes de poder cotizarlo.

Los 4 formatos de input no-estructurado

Cuatro formatos cubren la práctica totalidad de cotizaciones que llegan por WhatsApp en autopartes. Las proporciones varían por tipo de negocio (la refaccionaria de barrio recibe más fotos, el mayorista más VINs y números) pero la mezcla siempre incluye los cuatro.

Formato 1

Foto de la pieza

~40% de las cotizaciones en autopartes

Ejemplo real

[Foto adjunta de un balero con grasa y polvo, montado todavía en el coche, sin etiqueta visible] "¿Cuánto este?"

Es el formato más común. El cliente saca foto del coche o de la pieza que sacó, muchas veces sin limpiar, mal iluminada o con la pieza aún montada. La etiqueta con el número de parte está raras veces visible. La foto puede ser de la pieza rota, de la pieza nueva que necesita reponer, o del lugar donde va instalada.

Vendedor humano: tarda 3-8 minutos identificando la pieza, pidiendo más ángulos, intentando leer marcas o números. Muchas veces termina pidiendo el VIN al cliente para confirmar variante.

Cómo lo procesa la IA: modelos de visión (multimodales) reconocen la pieza, identifican rasgos distintivos (forma, tamaño relativo, conexiones), leen número de parte si es visible, y proponen identificación con nivel de confianza. Si la confianza es baja, piden información complementaria antes de cotizar — en lugar de adivinar.

Formato 2

VIN del vehículo

~25% de las cotizaciones (sube a ~40% en distribuidoras y mayoristas)

Ejemplo real

"Necesito pastillas de freno delanteras, mi vin es 3VW1K7AJ8FM263451"

El VIN tiene 17 caracteres con codificación estándar internacional (ISO 3779). Permite identificar marca, modelo, año, motor y submodelo del vehículo, y con eso filtrar qué piezas aplican. El cliente lo manda copiado del documento del coche, a veces incompleto o con errores de transcripción (la I confundida con 1, la O con 0). Es uno de los inputs más limpios cuando viene bien — y uno de los más frustrantes cuando viene mal.

Vendedor humano: pega el VIN en software de catálogo (un click cuando funciona, varios cuando el lookup falla por error de transcripción), valida marca/modelo, busca aplicaciones, manda cotización. Tarda 2-5 minutos cuando todo funciona.

Cómo lo procesa la IA: valida el VIN (longitud, dígito verificador, caracteres prohibidos), decodifica contra base de datos (NHTSA + decoders regionales de marcas locales), recupera marca/modelo/año/motor, filtra el catálogo a piezas compatibles, y cotiza. Si el VIN tiene un error obvio de transcripción (I por 1), lo sugiere corregir antes de fallar.

Formato 3

Audio de WhatsApp o texto descriptivo

~15% de las cotizaciones

Ejemplo real (audio)

"Mira, este es el balero que va junto a la rueda, el de delante del lado del conductor, del Tsuru viejito mío del 2008, este se está haciendo ruido cuando freno..."

La descripción coloquial es el formato más rico en información — el cliente cuenta el contexto entero — y al mismo tiempo el más difícil de procesar. Mezcla jerga regional ("balero" en MX, "rodamiento" en AR, "ruleman" en algunos lugares), referencia al vehículo de forma informal, y muchas veces incluye el síntoma ("hace ruido cuando frena") que ayuda a confirmar la pieza.

Vendedor humano: transcribe mentalmente, traduce jerga a términos técnicos, infiere modelo si el cliente fue vago, busca en catálogo. Cuando es un audio largo (>30 seg), suele necesitar escucharlo dos o tres veces. Tarda 4-7 minutos.

Cómo lo procesa la IA: transcribe el audio (modelos como Whisper manejan acentos LATAM con buena precisión), interpreta la jerga regional contextualmente, identifica el vehículo mencionado, infiere la pieza usando tanto el nombre como el síntoma descrito. Si algo es ambiguo, pregunta antes de cotizar.

Formato 4

Captura de pantalla

~20% de las cotizaciones (sube en compradores profesionales y talleres grandes)

Ejemplo real

[Captura de pantalla con una cotización de otro proveedor] "¿Me lo dejas a este precio o más barato?"

Las capturas más comunes son: cotización de otro proveedor (el cliente busca matchear precio), página de catálogo del fabricante (busca confirmación de número de parte), resultado de búsqueda de Google, o screenshot del ERP de un cliente. El cliente lo manda porque ya hizo el trabajo de buscar y quiere acelerar.

Vendedor humano: lee mentalmente la captura, copia los datos al sistema, valida contra catálogo propio, ajusta precio o sustituye marca. Tarda 3-6 minutos. Si la captura es de un competidor, suele tener que tomar una decisión de precio en el momento.

Cómo lo procesa la IA: OCR + parsing estructural extrae números de parte, precios y marcas mencionadas. Si es una cotización competidora, cruza contra catálogo propio y ofrece la pieza directa o un sustituto. Si es página de fabricante, valida el número de parte y aplica la búsqueda.

El costo escondido de la traducción humana

El trabajo de traducir un formato no-estructurado a un input buscable tiene tres costos que no aparecen en el balance:

1. Tiempo: el 30-50% de cada cotización

Sumando los promedios de cada formato (3-8 min para foto, 2-5 para VIN, 4-7 para audio, 3-6 para captura), el tiempo de traducción antes de poder cotizar es entre 3 y 7 minutos por solicitud. Sobre el tiempo total de cotización (que rara vez baja de 10 minutos completos), eso es el 30-50%. Con 1,500 cotizaciones/mes y un promedio de 5 minutos de traducción, son 125 horas/mes de trabajo invisible — equivalente a 0.7 FTE solo en interpretar inputs.

2. Errores: la mitad de las devoluciones vienen de mala identificación

Cuando el vendedor adivina mal una pieza desde una foto o audio ambiguo, el cliente recibe la pieza equivocada. Esa devolución por error de identificación es entre el 40% y 60% de las devoluciones totales del sector. Cada devolución cuesta logística, tiempo del equipo y, lo más caro, confianza del cliente.

3. Pérdida: cuando el vendedor pide más info, el cliente se va

Si el vendedor no logra identificar la pieza con lo que el cliente mandó, pide más información (otra foto, el VIN, marca/modelo). Esa pregunta consume tiempo del cliente — y en autopartes, donde el cliente mandó la misma solicitud a varios proveedores en paralelo, suele ser suficiente para perder la venta con quien sí identificó la pieza al primer intento.

La traducción humana del input no es solo un cuello de botella de capacidad. Es la principal fuente de errores de identificación y de cotizaciones que se pierden por fricción.

Qué cambia operacionalmente cuando lo procesa la IA

Reemplazar la traducción humana por procesamiento automático no es solo "más rápido". Cambia 4 métricas operativas a la vez:

Tiempo medio de respuesta: baja de 10-20 minutos a 30-60 segundos. El procesamiento del input toma segundos; el resto del tiempo es lookup en ERP y formato de cotización.
Tasa de "te pido más info": baja drásticamente porque la IA combina múltiples señales (foto + texto + contexto previo) en lugar de procesarlas por separado.
Errores de identificación: bajan entre 50% y 70%, no por magia sino porque la IA cruza más datos antes de decidir y pide confirmación cuando la confianza es baja — en lugar de adivinar como hace un humano apurado.
Capacidad de respuesta 24/7: el procesamiento no requiere que un vendedor esté disponible, así que noches y fines de semana se cubren igual que el horario laboral.

Una distribuidora típica con 1,500 cotizaciones mensuales ve, en los primeros 60 días, una reducción del tiempo de respuesta de ~25 minutos a <1 minuto, devoluciones por error de pieza bajando del 6% al 2-3%, y conversión cotización→pedido subiendo entre 5 y 12 puntos porcentuales.

Lo que la IA todavía no resuelve bien

Honestidad técnica: hay 4 escenarios donde la IA falla o requiere intervención humana, y conviene saberlos antes de implementar:

1. Foto inutilizable

Cuando la foto es completamente borrosa, demasiado oscura, o muestra algo irrelevante (la mano del cliente, parte del piso del taller), la IA no puede inferir. Pide otra foto al cliente. Si el cliente no la puede mandar, escala a humano.

2. VIN incompleto, mal copiado o inexistente

VINs anteriores a 1981 no tienen formato estándar, vehículos importados raros pueden no estar en bases de datos, y errores de transcripción a veces son irrecuperables sin foto del documento. En esos casos la IA pide la foto del VIN o escala.

3. Jerga muy local o ambigua

El vocabulario del sector cambia notablemente entre mercados LATAM: en México un cliente pide un balero de un Tsuru o un mofle para su Chevy; en Colombia el mismo cliente pide un rodamiento de un Renault Logan; en Argentina un ruleman de un VW Gol o un Renault 12; en Chile la jerga se parece a la colombiana pero predominan los Hyundai Accent y Nissan V16; en Perú la mezcla incluye términos de MX y CO con alta penetración de marcas asiáticas. "El que va arriba del cardán" puede ser cualquiera de varias piezas según el vehículo. La IA pregunta antes de cotizar mal — pero esa pregunta es fricción extra que en algunos casos se pierde como venta. La forma de mitigarlo: entrenar al colaborador digital con vocabulario específico del mercado donde opera (un colaborador para MX no debe asumir que conoce el lunfardo argentino).

4. Vehículos custom o de muy bajo volumen

Modificados, importados grises, vehículos de servicio público con piezas especiales — todos casos donde el catálogo estándar no aplica. Se escalan a humano con todo el contexto ya recopilado por la IA (foto, VIN, descripción).

En la práctica, una IA bien implementada maneja entre el 70% y 85% de las cotizaciones extremo a extremo y deriva el resto al equipo humano. La diferencia respecto al status quo: cuando deriva, deriva con todo el contexto. El vendedor no empieza de cero.

Cómo empezar a procesar inputs no-estructurados

El orden recomendado para incorporar este tipo de procesamiento:

Mes 1: mapear los 4 formatos en tu operación real (cuántas cotizaciones llegan en cada uno, tiempos de traducción promedio, tasa de "te pido más info"). Sin esa medición, no sabés qué optimizar primero.
Mes 2-3: implementar procesamiento de VIN automático — es el formato con ROI más rápido porque el VIN ya tiene estándar y la IA puede ser muy precisa.
Mes 3-4: agregar procesamiento de foto. Foto es el formato más común y donde más se gana en tiempo de traducción.
Mes 4-6: habilitar audio y captura de pantalla. Son menos volumen pero alta fricción cuando los humanos los procesan.
Continuo: medir periódicamente errores de identificación. La curva de aprendizaje de la IA con tu catálogo específico se nota en los primeros 90 días.

Preguntas frecuentes

¿Qué porcentaje de cotizaciones llega con número de parte exacto?

En el sector autopartes en LATAM, menos del 15% de las cotizaciones llega con número de parte (OEM o aftermarket) directo y correcto. El resto llega como foto de la pieza (~40%), VIN del vehículo (~25%), audio o texto descriptivo en jerga (~15%), o captura de pantalla (~5-20% según tipo de cliente). El vendedor humano tiene que traducir todos esos formatos antes de poder cotizar.

¿Puede una IA cotizar desde una foto borrosa o de mala calidad?

Depende del nivel de degradación. La IA actual con visión (modelos multimodales) trabaja con fotos imperfectas — sucias, parcialmente montadas, mal iluminadas — y aún identifica la pieza con razonable precisión si hay rasgos distintivos. Cuando la foto es ilegible, pide más información al cliente en vez de adivinar. Eso reduce devoluciones por error de identificación.

¿Cómo procesa la IA el VIN del vehículo?

El VIN tiene 17 caracteres con codificación estándar internacional. La IA lo valida (longitud, dígito verificador, caracteres prohibidos) y lo decodifica contra bases de datos (NHTSA + decoders regionales para marcas locales). Recupera marca, modelo, año, motor y submodelo, y filtra el catálogo a las piezas compatibles con ese vehículo específico.

¿Funciona con audios en jerga local mexicana, colombiana o argentina?

Los modelos actuales transcriben con buena precisión los principales acentos LATAM y manejan jerga regional común del sector autopartes (balero/rodamiento, chumacera/cojinete, mofle/escape, etc.). Cuando hay un término muy local o ambiguo, la IA pide aclaración antes de cotizar. La precisión mejora cuando el colaborador digital está entrenado con vocabulario específico del mercado donde opera.

¿Cuándo necesito intervención humana en una cotización de este tipo?

Cuatro escenarios: 1) foto inutilizable que el cliente no puede mejorar; 2) pieza muy custom o vehículo importado raro fuera del catálogo estándar; 3) decisión de precio especial (descuento, condiciones de crédito); 4) escalación cuando el cliente quiere hablar con una persona. La IA maneja el 70-85% de las cotizaciones extremo a extremo y deriva el resto al equipo humano con todo el contexto ya recopilado.

¿Querés verlo cotizar desde una foto?

Demo en vivo con tus inputs

30 minutos. Le mandamos a Victoria una foto real, un VIN, un audio de tu día a día — y vemos cómo cotiza en tiempo real.

Agendar demo