Ciencia de datos en la Pampa Húmeda.


En el paradigma de Big Data nos encontramos con grandes series de datos que poseen información que se desea descubrir. Es aquí donde entra la primera etapa de una exhaustiva Ciencia de Datos. Esta disciplina busca extraer conocimiento de grandes volúmenes de datos desestructurados, empleando técnicas estadístico-matemáticas convergentes de diversas disciplinas. Es una continuación de las áreas de Minería de Datos y análisis predictivo combinados, que permite adquirir conocimiento sobre el comportamiento de diversas variables.


Figura 1. Algunos de los campos que influencian el proceso de Ciencia de Datos.

En este caso particular, se procedió a realizar un análisis detallado de una serie de datos que contemplan particularmente la velocidad de vientos y ráfagas con sus respectivas direcciones para una estación de la zona núcleo de la Pampa húmeda, Argentina. Frente a un horizonte de trabajo en el cual se incorporan cada vez más datos y se encuentran limitaciones en los enfoques mecanicistas, el enfoque planteado permite obtener información interesante de forma práctica y sencilla.

Para empezar, se procedió a realizar una aproximación que denominaremos “ingenua”, que consiste en un primer contacto con los datos, tratando de ilustrarlos de forma gráfica para extraer conocimiento de su comportamiento. Luego de una instancia que consistió en la evaluación de los valores nulos presentes, (con el fin de conocer si correspondían a la naturaleza del problema o eran errores de medición), se construyó la Figura 2 se muestran los valores registrados para 2014 - 2015 tanto de velocidades de viento como de ráfaga, codificados por color según la dirección de los mismos. Mientras que los colores intensos (azul y verde) representan los vientos y ráfagas que tuvieron lugar en dirección norte-sur, aquellos en color gris muestran los que se originan en la dirección este-oeste.


Figura 2. Serie histórica de datos para estación de la Pampa húmeda para velocidades de viento (A) y ráfagas (B) con su correspondiente dirección. (C) Dirección de viento (escala) y ráfaga (color).

Todos los gráficos de la Figura 2 muestran una tendencia en la cual gran parte de los vientos provenientes en la dirección norte-sur son de mayor intensidad que los que ocurren con dirección este-oeste. Estos patrones se refuerzan cuando se analiza el gráfico (C) de la Figura 2, donde se comparan las direcciones de vientos y ráfagas y se observa que si bien para gran parte de los casos estas son coincidentes, existen momentos del año con marcados vientos cruzados (puntos violetas en zona amarilla).


Figura 3. Relación entre velocidad de viento y de ráfagas según los diferentes horas del día.

Por otro lado, en la Figura 3 se puede observar la variación en la relación entre la velocidad del viento y de las ráfagas para los diferentes momentos del día. Interactuando con el gráfico se puede seleccionar la hora cuya correlación se desea conocer y apreciar los resultados. De esa figura también podemos deducir que existen a toda hora del día una fuerte correlación entre la velocidad del viento y la de las ráfagas.


Figura 4. Box-plot Velocidad media del viento para los diferentes meses estudiados.

Si queremos conocer la estacionalidad mensual podemos observar la Figura 4. Allí se ve que mes a mes se producen variaciones en los valores correspondientes a la velocidad del viento y son escasos los valores atípicos, presentándose únicamente en julio de 2014 y en enero 2015.

Para un mayor detalle en el estudio de la estacionalidad pasamos a la Figura 5 en la cual tenemos un gráfico interactivo para contemplar la variabilidad de la estacionalidad horaria para determinados meses del año.


Figura 5. Box-plot Velocidad media del viento para un día, según mes contemplado.

Como vemos a partir de las figuras anteriores es posible obtener un una gran cantidad de información sobre el comportamiento del viento. El análisis aplicado puede ser empleado en otras estaciones de la región con el fin de construir mapas que nos permitan entender el desarrollo espacial de los fenómenos meteorológicos que dominan muchas prácticas agrícolas, como la aplicación de fertilizantes o agroquímicos. En BerecoLabs creemos que un enfoque basado en Ciencia de Datos permite comprender la naturaleza del problema de forma integral, frente al desafío de un número elevado de variables o información, permitiendo la extracción de conocimiento que permita desarrollar soluciones para los problemas que afectan a los territorios convirtiéndolos en inteligentes.