Resumen:
El reconocimiento de escenas es un caso especial de la clasificación de imágenes en la que se pretende etiquetar a las imágenes a partir de la información semántica del lugar que representan. En el contexto de la navegación autónoma de robots, el reconocimiento de escenas provee al robot la capacidad de localizarse y de entender el contexto del lugar que lo rodea. Bolsa de palabras visuales con extracción de características locales es uno de los métodos tradicionales usado para la clasificación de imágenes. La etapa de extracción de características es de las que más tiempo de cómputo toma, por lo que su optimización es una tarea aún vigente.
BOF (siglas del inglés, Boundary Object Function) es un método de extracción de características que ha sido utilizado en el reconocimiento de piezas en tareas de ensamblaje robótico, y en este trabajo se extiende su uso para reconocimiento de escenas, esto gracias a que este descriptor es una alternativa de bajo coste computacional comparado con descriptores usados en el estado del arte. Las imágenes RGB-D consisten en dos canales, uno con información de color y otro con información de profundidad. En este trabajo se adopta un método que consiste en extracción de características BOF utilizando imágenes de profundidad, pues estas aportan información del modelo 3D de la escena capturada, lo que permite que los objetos sean segmentados con rapidez.
En este trabajo se describen los fundamentos teóricos relacionados al reconocimiento de escenas, se explica el método utilizado y se compara con uno basado en extracción de características locales SIFT (del inglés, Scale Invariant Feature Transform). Se presentan resultados de métricas de clasificación y de rendimiento en el tiempo, los cuales indican que BOF es una alternativa de bajo consumo de recursos computacionales, pero que sacrifica exactitud de clasificación.