Valadrem

«Parecen fuegos de artificio»

12 de marzo de 2023

Tres herramientas

Aunque últimamente casi toda la fama de las diferentes aplicaciones del aprendizaje automático se centra en generadores de imágenes como Stable Diffusion o en las distintas variantes de GPT, incluyendo el bot esquizofrénico de Bing, lo cierto es que hay muchas otras herramientas que tal vez hayan pasado un poco desapercibidas pero pueden resultar muy útiles. Voy a hablar de tres de mis favoritas.

Rembg
Creo que la entrada más añeja de la lista, y eso que su primera versión es apenas de verano de 2020, Rembg es una herramienta para eliminar el fondo de las fotografías, generando un PNG transparente con el elemento que esté en primer plano.

Aunque en ocasiones los resultados no acaban de ser completamente precisos, si queremos hacer una edición rápida puede ser de gran utilidad para salir del paso. La instalación es bastante sencilla, pero requiere instalar Python y tener unas nociones básicas sobre el uso de la línea de comandos.
Lama Cleaner
Hilando con el proyecto anterior, en ocasiones no queremos eliminar el fondo de una fotografía, sino únicamente algún elemento de la misma. Si bien el plugin Resynthesizer para Gimp nos puede sacar del apuro en muchos casos, a menudo se le notan los años de abandono y nos quedamos con las ganas de probar algo un poco más avanzado. Ahí es donde entra en juego Lama Cleaner.

No demasiado exigente en sus requisitos, resultados más que aceptables y una instalación muy sencilla entre sus puntos fuertes, la única pega que puedo ponerle es que las últimas versiones han ido añadiendo demasiados modelos, muchos de los cuales ni siquiera he llegado a probar por sus exagerados requisitos y porque por lo general el modelo por defecto (LaMa) cumple de sobra. Pero, supongo, para quien necesite los modelos más avanzados todos estos cambios serán bien recibidos.
Whisper
Con apenas unos meses de vida, Whisper ya se ha colado en mi lista de imprescindibles. Una herramienta que nos permite transcribir audio en gran cantidad de idiomas, incluyendo el español y el catalán. Tremendamente útil para generar rápidamente subtítulos de algún vídeo que no los tenga, para crear una transcripción de un podcast, o para cualquier otra tarea en la que sea necesario convertir audio a texto, la calidad del texto generado supera con mucho los infames subtítulos automáticos de YouTube con los que teníamos que conformarnos hasta ahora.

Aunque el proyecto original, basado en PyTorch, necesitaba de un ordenador con una tarjeta gráfica relativamente potente (o de Google Colab) para funcionar en un tiempo razonable, gracias a los avances de gente extraordinaria en la comunidad de software libre, existe una versión optimizada (whisper.cpp) que puede funcionar sin problemas en una CPU normal y corriente, de paso ocupando muchísimo menos espacio en disco que el proyecto original.

Rizando el rizo, existe una segunda vuelta de tuerca que aprovecha estas optimizaciones y las lleva de nuevo a la GPU, logrando velocidades aun mayores y necesitando menos VRAM, haciendo por ejemplo que el modelo large pueda funcionar perfectamente en una tarjeta gráfica con solo 4 GB de VRAM, algo que por los pelos no podía hacerse en el proyecto original.
Por supuesto, esta lista no pretende ser exhaustiva y me dejo en el tintero muchísimos otros proyectos interesantes, como el ampliador de imágenes ESRGAN (enlazo por aquí una guía de iniciación). En cualquier caso, creo que los programas que he recopilado hoy son una muy recomendable adición a cualquier carpeta de herramientas.

Etiquetas: ,

🔗 | Publicado: 22:37

Archivo