Béisbol, Statcast y el manejo de la Big Data.

Por: Antonio Jesús Torres (@ajtorresd).

Con la evolución de la analítica, especialistas han dedicado más tiempo para informar sobre Big Data, lo que hace este término ahora de uso común incluso entre fanáticos. El análisis de datos con la profundidad que lo realiza equipos como Astros, RedSoxs, Atléticos para encontrar a los mejores jugadores disponibles, procesar las más complejas formulas sabermétricas  incluso ajustar las tarifas del estadio, requieren bastas tareas y recursos demandados en el fascinante mundo del análisis de datos. Sin embargo, todo esto por sí solo no es Big Data.

El análisis depende de plataformas que permitan el acceso a datos para su procesamiento y presentación como las que incluye Big Data. Pero tener  una computadora que permita el adecuado procesamiento de datos para realizar análisis complejos y/o tener un servidor que permita almacenar grandes volúmenes de datos hace frecuentemente deducir erroneamente el análisis y/o el almacenamiento es Big Data.

Tener una plataforma Big Data se sustenta en cumplir con lo llamado las cuatro V (pilares) del Big Data, algunos las resumen a tres pilares otros las extienden a cinco o siete, pero todo esto solo es para segmentar de mejor forma los procesos que se incluyen en esta filosofía.

Te Recomendamos Leer:  ¿Quien ha sido el mejor novato venezolano?
Los cinco pilares que dictan si un sistema debe llamarse Big Data o solo es una aplicación cuyo servidor tiene mucha información

La primera V de este cuarteto, es Volumen. Este pilar es el que comúnmente se asocia con Big Data. Sin duda se debe manejar grandes volúmenes de información, un servidor con muchísima capacidad de almacenamiento no es suficiente para etiquetar una plataforma  como Big Data, esta filosofía incluye además de las dimensiones físicas y de capacidad, su distribución.

El gran volumen en big data es mejor conocido por estar distribuido en múltiples computadores y servidores que tradicionalmente no están en la misma ubicación física debido a que los usuarios de estos ambientes suelen generar y consultar datos procesados en variados tipos de aplicaciones.

Ubicando esto dentro de un contexto que nos permita entender lo que tratamos explicar, podemos usar a Statcast como ejemplo. Statcast necesariamente debe utilizar servidores con gran cantidad de almacenamiento, enfáticamente distribuidos por que manejan distintos tipos de datos.

Luego de entender que el volumen de Big Data no es solo la basta cantidad de información que se ingresa o manipula sino también que tan distribuido es, ya que es necesario ser versátil, el segundo pilar es la variedad.

Statcast o sistemas como los utilizados por Baseball Info solutions quienes son los encargados de clasificar jugadas defensivas expresadas a través de estadísticas como UZR, necesitan entre otras procesar video, tipo de data específica que para su tratamiento se debe realizar con aplicaciones específicas o tienen aparatajes como pistolas que permite captar por ejemplo la velocidad de desplazamiento de un jugador, ubicar en que zona del campo se realiza una jugada, entre otras, así como permitir a sus propios usuarios la manipulación de datos tipo textos donde permita anexar observaciones y detalles de todo lo sucedido.

Te Recomendamos Leer:  El nivel más alto de un jugador (WAR5-WAR7)

Velocidad es el tercer pilar, algo que no se puede omitir sin importar lo mucho que sea distribuido los ambientes. Cuando vemos la televisión, canales como ESPN nos muestra información como la de la imagen 1, gracias a que estos tres primeros pilares son posibles.

Esta imagen de cara al televidente es el recorrido de un jugador de home a primera base realzado digitalmente por información que detalla cómo fue su progreso.

Del lado de las aplicaciones para que esto haya podido suceder, se debió tener cámaras que permitieran captar “la realidad” del momento, el video ingresa por dispositivos específicos y se procesa aparte de otros datos que se toman como los dispositivos que captaron el desplazamiento del jugador entre otros. La unión de todo esto debe ser realizado muy rápidamente como para poder ser presentado.

Desde el cálculo de el recorrido que hace un jugador hasta que el resultado llega a un sistema como Statcast intervienen distintos elementos de Big Data.

La veracidad, el cuarto pilar se refiere a la congruencia que ver en los datos ingresados desde múltiples fuentes. Los encargados de la plataforma deben preguntarse si los datos que se almacenan y extraen son directamente relacionados y significativos al problema que se trata de analizar. Esta característica puede ser el mayor reto cuando se comparan el volumen o la velocidad. Sin embargo es vital que exista congruencia en los datos que ingresan y se manipulan en el sistema ya que tener datos de más, adicional del espacio que ocupa y por lo tanto puede ralentizar el mismo, no brindan ningún tipo de valor.

2 comentarios

  1. Excelente que portales como Baseball savant permitan descargar en archivo plano los datos de las consultas, sin importar lo numerosos que sean, y en algún paquete estadístico aplicar y validar esas 5 V’s de big data.

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *