Descubriendo información en una red compleja usando aprendizaje por refuerzo.

En esta charla vamos a revisar los fundamentos del aprendizaje profundo y vamos a ver cómo se puede aplicar para descubrir información en una red compleja (ej: una red de ordenadores de una empresa). Para ello, primero vamos a definir el problema formalmente mediante un proceso de decisión de Markov finito, definiendo las funciones de valor y las políticas óptimas. Uno de los puntos más interesantes en el aprendizaje por refuerzo consiste en la estimación de las funciones de valor y el descubrimiento de las políticas óptimas. En esta charla, daremos unas breves pinceladas de como nosotros estamos afrontando este problema mediante la programación dinámica y métodos Monte Carlo para diseñar posibles soluciones de aprendizaje por refuerzo basadas en el aprendizaje por diferencias temporales o el enfoque denominado n-step bootstraping.