Cómo enseñar a una máquina a hacer un trabajo inteligente

 En Be+Digital, Big Data, Inteligencia Artificial, Machine Learning

Sergio Nabil Khayyat es arquitecto de big data en el Instituto de Ingeniería del Conocimiento, entidad que cumple 30 años como centro pionero en inteligencia artificial. 

A estas alturas todo el mundo ha oído hablar de Machine Learning o aprendizaje automático. Esta rama de la Inteligencia Artificial llega para automatizar tareas, detectar problemas, relaciones o patrones de comportamiento, todo ello partiendo únicamente de un background de datos. Sin embargo, habitualmente se desconoce qué hay detrás de estos sistemas y cuál es el proceso necesario para conseguir que una máquina haga un trabajo inteligente.

Los modelos de Machine Learning no necesitan una programación directa y específica, sino que aprenden de datos que reflejen la tarea o problema que queremos resolver y, por tanto, que podremos encontrar en el entorno de una empresa u organización. Casi todo se basa en los datos: en buscarlos, limpiarlos y procesarlos, para después poder entrenar al modelo con esa información. Y es que los algoritmos no funcionan con datos en bruto, hay que prepararlos bien para que la máquina los entienda.

Resultado de imagen de machine learning

El tiempo es importante en Machine Learning

Cuando se intuye que hay valor en la información de la que disponemos, cuando creemos que existen datos relevantes de los que extraer insights sobre la actividad de una empresa y mejorar ciertos procesos, es el momento de comenzar un proyecto de Machine Learning; es decir, analizar esos datos y utilizarlos para extraer conocimiento, hacer predicciones o crear alertas.

Sin embargo, en muchas ocasiones ocurre que la organización no puede esperar para tener un resultado. No puede esperar a que recopiles todos los datos, los analices y presentes un informe completo y detallado. En esos casos lo que se necesita es una monitorización de los datos en tiempo real, que permita reaccionar con rapidez a las circunstancias nuevas que se presentan y de las que los datos nos están informando. Vivimos en un mundo de inmediatez absoluta, también aplicada al ámbito empresarial, donde ciertas decisiones tienen fecha de caducidad, que en ocasiones se mide en tiempos de milisegundos.

Es habitual en estos casos que los datos están llegando continuamente y tenemos que trabajar con ellos y procesarlos a ese mismo ritmo. Un transcurso que tiene su problemática y peculiaridades. Necesitamos desarrollar una aplicación que haga un análisis de datos “en tiempo real”.

Analizar los datos en tiempo real

Resultado de imagen de analisis de datosPara responder a las necesidades del negocio en tiempo real, el quid de la cuestión está en analizar los datos para saber qué decisiones tomar en el mismo momento en el que los obtenemos. Si nos imaginamos un río, en el que el agua son los datos, tenemos gran cantidad de información que está llegando constantemente, y que nos puede inundar si no estamos preparados.

Sea cual sea el caso, la filosofía es siempre la misma: los datos llegan, y tenemos que hacer algo con ellos. En este contexto existen múltiples herramientas Open Source para Big Data en las que nos podemos apoyar para llevar a cabo todo el proceso:

  1. Limpiar los datos. En primer lugar, es importante conocer el estado de los datos. En la mayoría de las ocasiones, algo tan simple como limpiar los datos de toda información que no está relacionada con el objetivo, puede ser una tarea crítica si queremos resolver con éxito nuestro problema.
  2. Enriquecer los datos. A veces no basta con esa limpieza de la información. Para conseguir un resultado más completo y preciso, tenemos que enriquecer los datos (recordemos, ¡a medida que van llegando!) con otra información relacionada.
  3. Sacar conclusiones. Ahora sí que estamos listos para sacar conclusiones útiles para el negocio, puesto que tras limpiar y enriquecer los datos podemos aplicar modelos descriptivos, predictivos o incluso prescriptivos, que nos digan con más profundidad qué está pasando, qué va a pasar, o cómo debemos actuar respectivamente. Además, los sistemas más interesantes son aquellos que no solo nos dan resultados útiles para el negocio, sino que aprenden al tiempo que procesan la información.
  4. Gestionar el proceso. Recordemos que tenemos que ser capaces de ejecutar esas 3 tareas con los datos “en vuelo”, lo que por sí mismo representa un reto, ya que el río de datos puede, por ejemplo, crecer de improviso y hacer que se quede pequeño nuestro sistema, o todo lo contrario, y que estemos gastando en unos recursos infrautilizados. Es el momento en el que necesitamos una presa y buenas canalizaciones para contener los datos y gestionar la información, por ejemplo, con Kafka y Storm, ambos proyectos open source de la Apache Software Foundation.
  5. Apoyarnos en la infraestructura. Tanto si surgen inconvenientes en la arquitectura del sistema como si las necesidades del negocio cambian, el sistema tendrá que evolucionar, y el agua (los datos) va a seguir llegando, por lo que toda ayuda es poca a la hora de simplificar la labor de los técnicos encargados de operar el sistema. En ese sentido, tecnologías de containerización del software como Docker permiten separar las vicisitudes de la infraestructura de los cambios en el sistema software.

Como vemos, podemos hacer proyectos de análisis de datos en tiempo real mediante una arquitectura escalable basada en software Open Source, sobre la que se pueden implementar soluciones de Machine Learning con algoritmos diseñados y entrenados para trabajar con un flujo constante de nueva información. De esta forma, se crean soluciones probadas que son adaptadas a cada sector, siendo capaces de replicar el proceso en diferentes situaciones.

En el Instituto de Ingeniería del Conocimiento (IIC), como expertos en analítica avanzada, nos preocupamos por extraer el valor de los datos utilizando todas las herramientas a nuestro alcance, ya que, al final, estas son solo un medio con el que llegar a extraer valor a los datos de las organizaciones y aportarles soluciones reales de negocio.

Recommended Posts

Dejar un comentario

Escriba lo que desea buscar y pulse ENTER

Formulario de contacto

    “AVANTE FORMACIÓN SLL, como responsable del tratamiento, tratará los datos que aporte en este formulario para la gestión y respuesta de las consultas planteadas. Tiene derecho a ejercer los derechos de acceso, rectificación, supresión y oposición sobre el tratamiento de sus datos a través de la dirección de correo electrónico formacion@avante.es y ante a la Agencia Española de Protección de Datos. Puede consultar información más detallada en nuestra política de privacidad”

    He leído y acepto la política de privacidad.

    ×
    zityfy-bedigitalMejorar calidad del dato con Machine Learning