Habla con un experto en contratación pública

Clasificación de licitaciones con IA: del código CPV al matching semántico

Por:Icela MartinTechnology
Clasificación de licitaciones con IA: CPV y búsqueda semántica

Encontrar las licitaciones adecuadas para una empresa debería ser un proceso directo: se selecciona un sector, se aplica un filtro y aparecen los contratos relevantes. En la práctica, ese proceso falla con más frecuencia de lo que parece. El motivo es estructural: el sistema de clasificación que organiza la contratación pública europea, el Vocabulario Común de Contratación (CPV), fue diseñado para garantizar uniformidad en la publicación, no para reflejar con precisión lo que cada empresa hace o busca. La diferencia entre ambos objetivos es la fuente de las oportunidades que se pierden.

La aparición de técnicas de inteligencia artificial aplicadas a la búsqueda de licitaciones cambia esta ecuación. El matching semántico permite que un sistema entienda el significado de lo que busca una empresa, no solo sus palabras exactas, y relacione esa intención con licitaciones publicadas bajo códigos o títulos distintos. Este artículo explica cómo funciona ese proceso, cuáles son sus bases técnicas y qué implica en la práctica para las empresas que licitan.


El código CPV: utilidad y límites en la clasificación de licitaciones

El sistema CPV, establecido por el Reglamento (CE) n.º 213/2008 de la Comisión, organiza los contratos públicos en una taxonomía numérica de hasta nueve dígitos. Su propósito es doble: permite publicar anuncios de licitación en el Diario Oficial de la Unión Europea (DOUE) de forma que sean recuperables por cualquier empresa de cualquier Estado miembro, y facilita la comparabilidad estadística del gasto público en toda la UE. Hasta ahí su utilidad es incuestionable.

Los problemas aparecen cuando se usa el CPV como principal herramienta de búsqueda desde el lado del licitador. La taxonomía tiene más de 9.000 códigos, pero muchas actividades reales quedan mal encuadradas en ella, especialmente en sectores transversales como la consultoría, la tecnología o los servicios medioambientales. Un contrato de ciberseguridad puede publicarse bajo CPV de servicios informáticos, servicios de consultoría tecnológica o servicios de vigilancia, dependiendo del criterio del órgano de contratación. Una empresa que solo filtra por su CPV "natural" se pierde los otros dos.

A esto se añade que los órganos de contratación no siempre asignan el código más preciso disponible. Algunos usan códigos de nivel superior, más genéricos, lo que agrupa bajo un mismo código licitaciones muy heterogéneas. La obligación de asignar al menos un código CPV, reforzada por el Reglamento de Ejecución (UE) 2019/1780 sobre formularios estándar de publicación, ha mejorado la cobertura, pero no resuelve el problema de fondo: el CPV describe categorías de producto o servicio, no el objeto real del contrato con toda su especificidad.

Búsqueda por palabras exactas frente a búsqueda semántica

Las plataformas institucionales de publicación de licitaciones, incluida la Plataforma de Contratación del Sector Público (PLACSP), operan principalmente con búsqueda por coincidencia de términos exactos. Esto significa que si se busca "mantenimiento de instalaciones eléctricas" y el pliego usa el término "mantenimiento eléctrico", la licitación no aparece en los resultados, aunque describe exactamente el servicio que la empresa presta. El buscador no entiende sinónimos, no infiere contexto y no detecta variaciones lingüísticas.

La búsqueda semántica aborda este problema desde una lógica completamente distinta. En lugar de comparar cadenas de texto literales, transforma tanto la consulta del usuario como los documentos indexados en representaciones vectoriales numéricas, denominadas embeddings, que capturan el significado de los textos en un espacio matemático de alta dimensión. Dos textos que expresan el mismo concepto con palabras diferentes quedan próximos en ese espacio vectorial; dos textos que usan las mismas palabras con significados distintos quedan separados. La similitud semántica se convierte así en una distancia calculable.

Este enfoque permite recuperar licitaciones relevantes que un buscador por palabras exactas habría ignorado por completo. Una empresa de ingeniería ambiental que busca "estudios de impacto ambiental" puede obtener también licitaciones publicadas como "evaluación ambiental estratégica", "informes de sostenibilidad medioambiental" o "asistencia técnica en materia ambiental", porque el modelo semántico reconoce que todos esos términos comparten un campo semántico común. La cobertura real de oportunidades aumenta de forma significativa respecto a la búsqueda tradicional.

Cómo funciona el matching semántico en la práctica

Representación vectorial de licitaciones

El proceso comienza en la ingesta de datos. Cuando una plataforma indexa una licitación, no almacena solo los metadatos estructurados (código CPV, importe, fechas, órgano de contratación), sino también una representación vectorial del texto que describe el objeto del contrato. Esa representación se genera aplicando un modelo de lenguaje entrenado para capturar el significado de los textos en el dominio específico de la contratación pública. Cuanto más especializado está el modelo en ese dominio, más precisa es la representación semántica de conceptos jurídicos y técnicos específicos.

Cuando un usuario introduce una consulta, el sistema genera su embedding con el mismo modelo y calcula la similitud de esa consulta con los embeddings almacenados. Los resultados se ordenan por similitud semántica, no por coincidencia léxica. Este mecanismo es la base de la arquitectura de generación aumentada por recuperación (RAG, Retrieval-Augmented Generation), que combina recuperación semántica con generación de respuestas en lenguaje natural, y que diferencia sustancialmente a los sistemas de IA especializados de los buscadores convencionales.

Generación automática de parámetros de búsqueda

Un nivel más avanzado de automatización es la generación de perfiles de búsqueda a partir del historial de una empresa, sin que el usuario configure manualmente ningún filtro. A partir de los códigos CPV de las licitaciones en las que una empresa ha participado o resultado adjudicataria, un modelo de IA puede inferir las palabras clave más relevantes para esa empresa, los tipos de contrato habituales en su sector y el rango de importe que corresponde a su escala de negocio. El resultado es un perfil de búsqueda personalizado que se activa desde el primer momento, sin necesidad de configuración manual.

Este proceso reduce la barrera de entrada para empresas que no dominan la nomenclatura CPV o que operan en sectores donde la clasificación oficial no refleja bien su actividad real. También permite capturar oportunidades en CPVs adyacentes que el equipo no habría considerado, porque el modelo detecta correlaciones en el historial de adjudicaciones del mercado que no son evidentes para el usuario humano.

Filtros inteligentes en lenguaje natural

Otra manifestación práctica del matching semántico es la posibilidad de formular búsquedas complejas en lenguaje natural, sin necesidad de conocer los códigos exactos ni la estructura del formulario de filtros. Una consulta como "contratos de servicios de limpieza en Cataluña con presupuesto superior a 50.000 euros" puede ser interpretada por un modelo de lenguaje, que extrae las dimensiones relevantes (tipo de servicio, ubicación, umbral económico) y las traduce automáticamente a los filtros estructurados del sistema. El usuario describe su intención y la IA la convierte en una consulta precisa sobre datos estructurados.

Esta capacidad elimina uno de los puntos de fricción más habituales en la búsqueda de licitaciones: la necesidad de conocer previamente qué código CPV corresponde a la actividad de la empresa, cuál es la terminología exacta que usan los órganos de contratación o cómo se llama el tipo de procedimiento que se busca. El conocimiento técnico del sistema queda embebido en el modelo, no en el usuario.

CPV y semántica: un sistema complementario, no excluyente

El matching semántico no reemplaza al código CPV como sistema de clasificación oficial, ni lo convierte en irrelevante. El CPV sigue siendo el estándar regulatorio que rige la publicación de licitaciones en España y en la UE, y su correcta asignación por parte de los órganos de contratación es una obligación legal. Lo que cambia es el papel que juega para el licitador en el proceso de descubrimiento de oportunidades.

Un enfoque eficaz combina ambas dimensiones: filtros por CPV para acotar el universo de búsqueda según la clasificación oficial, y búsqueda semántica para capturar las licitaciones publicadas bajo categorías distintas pero relacionadas con la actividad real de la empresa. Esta combinación maximiza la cobertura sin generar ruido excesivo, que es el riesgo contrario: si el sistema semántico es demasiado permisivo, devuelve licitaciones irrelevantes que consumen tiempo de revisión sin aportar valor.

La comprensión del sistema CPV sigue siendo útil para el licitador precisamente porque permite entender cuándo el matching semántico es necesario. Cuando una empresa opera en un sector con códigos CPV bien definidos y consistentemente asignados por los órganos de contratación, el filtro por CPV puede ser suficiente. Cuando el sector es transversal, la terminología es variable o la empresa opera en varios subsectores, la semántica es imprescindible para no perder oportunidades. El artículo códigos CPV: qué son y cómo buscar licitaciones desarrolla en detalle la estructura del sistema y cómo navegarlo.

Matching semántico y alertas: automatizar el descubrimiento de oportunidades

El matching semántico no solo mejora la búsqueda activa; transforma también el funcionamiento de las alertas de licitaciones. Una alerta basada únicamente en CPVs envía notificaciones sobre toda licitación que coincida con ese código, independientemente de si el objeto del contrato es relevante para la empresa. Una alerta con base semántica puede afinar esa cobertura, reduciendo el ruido y aumentando la pertinencia de cada notificación recibida.

La combinación de CPVs, palabras clave generadas semánticamente y parámetros de importe y ubicación configura un perfil de alerta que actúa como un sistema de vigilancia continua del mercado, adaptado al perfil real de la empresa. Cada licitación que entra en el sistema se evalúa automáticamente contra ese perfil, y solo las que superan el umbral de relevancia semántica generan una notificación. Tendios aplica este enfoque en su sistema de alertas personalizadas, combinando la clasificación estructural por CPV con búsqueda semántica para que ningún contrato relevante quede fuera del radar.

El resultado práctico es que el equipo de licitaciones deja de revisar manualmente decenas de resultados poco relevantes para centrarse en un conjunto reducido de oportunidades con alta probabilidad de encajar con la capacidad y el historial de la empresa. El tiempo liberado puede dedicarse al análisis de pliegos, a la preparación de la oferta o al seguimiento del mercado, actividades de mayor valor que la criba inicial de resultados. El artículo sobre inteligencia artificial en contratación pública ofrece un contexto más amplio sobre cómo la IA está cambiando el flujo de trabajo de los equipos de licitaciones.

Implicaciones para la estrategia de licitación

La adopción de matching semántico tiene consecuencias prácticas sobre cómo una empresa diseña su estrategia de búsqueda de oportunidades. En primer lugar, reduce la dependencia de un perfil CPV rígido y permite explorar sectores adyacentes donde la empresa puede competir aunque no tenga historial de adjudicaciones específico. En segundo lugar, permite detectar licitaciones en fases tempranas del pipeline comercial, antes de que el plazo de presentación esté próximo, lo que da más margen para preparar una oferta de calidad.

Una implicación menos obvia es la mejora en el análisis competitivo. Cuando el sistema identifica qué licitaciones son relevantes para una empresa con base semántica, también puede inferir qué otras empresas compiten habitualmente en ese espacio, con independencia de los CPVs bajo los que se hayan adjudicado contratos anteriores. El análisis de adjudicaciones públicas se vuelve más preciso cuando la agrupación de competidores no depende solo de los códigos asignados por los órganos de contratación, sino del contenido real de los contratos que han ganado.


Preguntas frecuentes sobre clasificación de licitaciones con IA

¿Qué es el matching semántico en el contexto de la búsqueda de licitaciones?

Es una técnica que transforma textos en representaciones matemáticas para comparar el significado de una consulta con el de las licitaciones publicadas, en lugar de buscar coincidencias de palabras exactas. Permite recuperar contratos relevantes aunque usen terminología distinta a la del buscador.

¿El sistema CPV sigue siendo útil si se usa búsqueda semántica?

Sí. El CPV es el estándar regulatorio de clasificación en la UE y su uso no desaparece. La búsqueda semántica lo complementa para capturar licitaciones publicadas bajo códigos distintos pero con objeto contractual similar al que busca la empresa. Ambos enfoques son compatibles y se refuerzan mutuamente.

¿Cómo se generan automáticamente los parámetros de búsqueda a partir del historial de adjudicaciones?

Un modelo de IA analiza los CPVs de las licitaciones en las que la empresa ha participado o ganado, infiere las palabras clave asociadas a ese perfil y configura automáticamente filtros de búsqueda que reflejan el sector real de la empresa, sin necesidad de configuración manual por parte del usuario.

¿Cuál es la diferencia entre una alerta por CPV y una alerta con base semántica?

Una alerta por CPV notifica cualquier licitación bajo ese código, independientemente de si su objeto es relevante. Una alerta con componente semántico evalúa la pertinencia del objeto del contrato respecto al perfil de la empresa, reduciendo el ruido y aumentando la relevancia de las notificaciones recibidas.

¿Qué es un embedding en el contexto de búsqueda semántica?

Es la representación vectorial de un texto en un espacio matemático de alta dimensión, generada por un modelo de lenguaje. Dos textos con significados similares producen vectores próximos en ese espacio, lo que permite medir la similitud semántica entre una consulta y los documentos indexados.


Conclusiones sobre clasificación de licitaciones con IA

El código CPV es el estándar de clasificación que estructura la contratación pública en la UE, pero sus limitaciones como herramienta de búsqueda para el licitador son reales y bien documentadas. La búsqueda semántica basada en modelos de lenguaje no viene a sustituirlo, sino a cubrir el espacio donde falla: la recuperación de licitaciones relevantes publicadas bajo terminología o categorías distintas a las que usa la empresa.

Para los equipos de licitaciones, el impacto más directo es la reducción del tiempo dedicado a la criba manual de resultados y el aumento de la cobertura real del mercado. Para la estrategia comercial, supone poder explorar oportunidades en sectores adyacentes y detectar la actividad de competidores con mayor precisión que la que permite el filtro por CPV. La clasificación automática con IA no cambia cómo se gana una licitación, pero sí amplía el universo de licitaciones en las que una empresa puede competir.

Icela Martin

Icela Martin

Legal Copywriter • Contratación Publica