Los 5 desafíos del Big Data en Aprendizaje Automático

Álvaro Muñoz

Dpto. I+D+i de GAMCO

Se pueden destacar 5 desafíos del Big Data que se definen como V (volumen, velocidad, veracidad, variedad y valor). R. Narasimhan debatió sobre 3V como volumen, variedad y velocidad, mientras que F. J. Ohlhorst estudió el Big Data considerando 4V, que son volumen, variedad, velocidad y veracidad. Alexandra L'heureux también describieron los desafíos que enfrentan los algoritmos de Aprendizaje Automático considerando 4V y no teniendo en cuenta el valor como una característica esencial sino como uno de los productos de la tarea de procesamiento de datos [Man11].

En este artículo se considera el valor como una de las cualidades importantes del Big Data porque afecta a la privacidad y a otros aspectos de los datos. Por lo tanto, en este artículo se discutirán los desafíos del Big Data que enfrentan los algoritmos de Aprendizaje Automático basado en 5V, que son volumen, velocidad, variedad, veracidad y valor.

Qiu et al. [QWD+16] proporcionaron un estudio del Aprendizaje Automático en cuanto al Big Data enfocado principalmente en el procesamiento de señales identificando varias de las preocupaciones más importantes relacionadas con la escala, velocidad, heterogeneidad, incompletitud e incertidumbre de los datos. Al-Jarrah et al. [AJYM+15] evaluó características analíticas del Aprendizaje Automático para la eficiencia de sistemas a gran escala.

► Te puede interesar: El Big Data aplicado a las empresas

También se ha estudiado ampliamente varias técnicas de Aprendizaje Automático, más concretamente técnicas de aprendizaje profundo, centrándose en los diversos problemas que enfrentan debido al Big Data. Uthayasankar Sivarajah estudió los desafíos del Big Data propuestos y abordados por las organizaciones y los métodos analíticos empleados para superarlos, pero no especificó el Aprendizaje Automático. Gandomi y Haider clasificaron los desafíos que enfrenta el Big Data debido a sus dimensiones no relacionadas con el Aprendizaje Automático.

Los 5 Desafios del Big Data

Los 5 desafíos del Big Data en Aprendizaje Automático

1. Desafíos debido al volumen masivo de Big Data

Big Data a menudo se clasifica como una gran cantidad de datos, tamaño enorme en cuanto al almacenamiento, y escala masiva. Según Han Hu et al. [HWCL14] el carácter distintivo de los macrodatos dificulta el diseño de un sistema escalable de macrodatos. La variedad de datos y la naturaleza heterogénea de los datos hace que la recopilación e integración de datos de sistemas distribuidos dispares de una manera escalable a menudo sea muy difícil.

Uno de los desafíos del Big Data son los grandes volúmenes de Big Data representan un reto para los algoritmos de aprendizaje automático establecidos desde hace mucho tiempo para ser entrenados en un solo procesador y almacenamiento. En su lugar, se prefiere la computación paralela en colaboración con marcos distribuidos. Para realizar el procesamiento de datos a gran escala en arquitectura paralela y distribuida, se ha propuesto el método de multiplicadores de dirección alternativa (ADMM) [ZBB14], [LFJ13] que proporciona una plataforma informática para construir algoritmos de optimización escalables, distribuidos y convexos.

El volumen afecta el rendimiento del procesamiento ya que aumenta la complejidad computacional. Algunos  algoritmos de aprendizaje automático como SVM (Support Vector Machines), PCA (Principal Component Analysis) y la regresión logística muestran un aumento exponencial en el tiempo de cálculo con el aumento del tamaño de los datos. Los algoritmos de aprendizaje automático suelen asumir que los datos que deben procesarse se pueden capturar por completo en la memoria, pero el volumen plantea la necesidad y “maldición” de la modularidad en esta clase de algoritmos. 

Big Data normalmente se caracteriza como datos con gran dimensión o espacio de variables, lo que lleva a otro problema mayor que enfrentan los algoritmos de aprendizaje automático conocido como “Curse of Dimensionality”. La mayoría de los algoritmos de aprendizaje automático muestran una complejidad de tiempo polinomial basada en el número de dimensiones.

Para proporcionar escalabilidad a los algoritmos de Aprendizaje Automático, se considera que la computación en la nube mejora la capacidad informática y de almacenamiento necesaria para manejar el análisis de datos a gran escala. En esta perspectiva [LBG+12], se propuso un marco de Aprendizaje Automático basado en la nube conocido como GraphLab distribuido.

La semántica de datos es otro de los desafíos del Big Data al que se enfrentan los algoritmos de Aprendizaje Automático al procesar grandes cantidades de datos. La mayoría de los datos recopilados provienen de diversas fuentes y vienen con una semántica diferente. Estos datos no deben almacenarse como cadenas de bits de datos, sino que requieren una indexación semántica.

2. Desafíos del Big Data debido a la variedad

Big Data se compone de diferentes datos con diferentes formatos provenientes de fuentes que pueden ser estructuradas, semiestructuradas y completamente no estructuradas. Esta fusión de datos de fuentes distintas de gran dimensión viene con un gran desafío para lidiar con un alto grado de complejidad, integración de datos y reducción de datos.

La ubicación de los datos es el desafío fundamental al que se enfrenta el algoritmo de Aprendizaje Automático, ya que asume que todos los datos están en la memoria [KGDL13], o en el mismo archivo de disco, lo que a menudo es imposible en el caso de Big Data. Esto condujo a la introducción de un enfoque en el que la computación se mueve a la ubicación de los datos en contraste con mover los datos al lugar de la computación.

La reducción de la dimensionalidad es un método eficiente para manejar datos de alta dimensión. La selección o extracción de características es el enfoque más utilizado para reducir las dimensiones de los datos. Por ejemplo, Sun et al. [STG10] realizó un análisis de datos de alta dimensión utilizando un algoritmo de selección de características basado en el aprendizaje local. Todos estos algoritmos funcionan bien en alta dimensión, pero la eficiencia y la precisión disminuyen drásticamente cuando se usan en arquitectura distribuida de manera paralela.

La alta dimensionalidad en Big Data a menudo da como resultado problemas graves como valores que faltan, errores de medición, datos ruidosos y valores atípicos, como lo mencionó et al [FHL14]. Consideraron que los datos ruidosos son uno de los principales desafíos para analizar Big Data, Swan [Swa13] también sugirió que, debido al ruido de Big Data, puede ser difícil proporcionar resultados significativos.

3. Desafíos del Big Data debido a la velocidad

Big Data a menudo se compone de datos de transmisión rápida que llegan constantemente, aunque también puede haber datos que llegan en intervalos que no son de tiempo real. Los algoritmos de Aprendizaje Automático funcionan con una suposición en la que se supone que todo el conjunto de datos está disponible en un momento dado para su procesamiento, pero esto a menudo falla en términos de Big Data. Por lo tanto, se considera el aprendizaje incremental para que los algoritmos adapten nueva información. 

El aprendizaje en línea se ha convertido en una de las técnicas prometedoras para manejar el problema de la velocidad de Big Data, ya que no funciona en todo el conjunto de datos de una sola vez, sino que aprende una instancia en un momento dado implementando una estrategia de aprendizaje secuencial, pero sufren interferencias catastróficas.

Con la rápida aplicabilidad del procesamiento en tiempo real en la época actual con la proliferación de IoT, sensores como RFID y dispositivos móviles, han surgido muchos sistemas de transmisión como Apache Spark, Amazon Kinesis, Yahoo'S4, etc. Estos marcos muestran un éxito en el procesamiento en tiempo real, pero carecen de un Aprendizaje Automático refinado, aunque proporciona características para la integración del Aprendizaje Automático utilizando herramientas o lenguajes externos.

4. Desafíos del Big Data debido a la veracidad

La veracidad implica la calidad y procedencia del Big Data. Según IBM, las fuentes de Big Data son intrínsecamente poco fiables, lo que dificulta la obtención de datos de calidad. En Big Data a menudo se encuentra información errónea, imprecisa, con valores perdidos, sucia y ruidosa por naturaleza, ya que se recopila de fuentes de datos distintas por lo que tiende a ser incierta e incompleta, llegandose a convertir en un problema para manejar con algoritmos de Aprendizaje Automático.

Algunos de los ejemplos de fuentes de Big Data abarcan las redes sociales, el crowdsourcing, los datos meteorológicos recopilados a partir de sensores o los datos económicos. Pero estos datos son con frecuencia imprecisos, inciertos e inexactos, ya que carecen de objetividad, lo que dificulta la tarea de aprendizaje para un algoritmo de Aprendizaje Automático.

Aprender de estos datos deficientes e incompletos es una tarea desafiante, ya que la mayoría de los algoritmos de Aprendizaje Automático existentes no se pueden aplicar de manera directa. Chen y Lin [wCL14] estudiaron la aplicación de métodos de aprendizaje profundo para tratar con datos ruidosos e incompletos.

Nuevamente, los métodos de Aprendizaje Automático a menudo no funcionan de manera eficiente cuando se aplican en transmisión de datos en tiempo real. Estos datos de alta dimensión a la vez que se realiza un aprendizaje con arquitecturas complejas es una tarea de optimización difícil.

5. Desafíos del Big Data debido al valor

El valor que pueden generar los datos una vez procesados se puede considerar la  característica más importante. Este aspecto es el que dota de utilidad a la información contenida, y da sentido al desarrollo de soluciones ante los problemas que se quieran abordar. El descubrimiento de conocimiento en las bases de datos y los enfoques de minería de datos pueden proporcionar soluciones sustanciales [TLCY14], [WZWD14], [FPSS96] pero enfrentan múltiples desafíos debido a las dimensiones de los grandes datos que afectan severamente la dimensión de valor asociada con los grandes datos. 

Aunque muchos autores han proporcionado soluciones para problemas de Big data utilizando Machine Learning como en [WZWD14], Wu et al. algoritmos de Aprendizaje Automático y minería de datos ejemplificados y propuestos basados en procesamiento de Big Data

En muchas aplicaciones del mundo real, el valor o la utilidad de los resultados del procesamiento a menudo están sujetos a un límite de tiempo, es decir, si el resultado no se genera dentro de un periodo de tiempo determinado, pierde su importancia y relevancia para, por ejemplo, predecir el valor del mercado de valores y sistemas de compra y venta basados en agentes.

Además, el valor de los resultados del procesamiento depende en gran medida de la actualización de los datos que se van a procesar. La naturaleza no estacionaria de los datos es otro desafío que enfrentan los algoritmos de Aprendizaje Automático que no están diseñados para trabajar con datos sobre la marcha o en transmisión de datos.

Referencias 

[AJYM+15] Omar Y. Al-Jarrah, Paul D. Yoo, Sami Muhaidat, George K. Karagiannidis, and Kamal Taha. Efficient machine learning for big data: A review. Big Data Research, 2(3):87–93, 2015. Big Data, Analytics, and High-Performance Computing. 

[FHL14] Jianqing Fan, Fang Han, and Han Liu. Challenges of big data analysis. National science review, 1(2):293–314, Jun 2014. 25419469[pmid]. 

[FPSS96] Usama M. Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth. From data mining to knowledge discovery in databases. AI Mag., 17:37–54, 1996. 

[HWCL14] HanHu,Yonggang Wen, Tat-Seng Chua, and Xuelong Li. Toward scalable systems for big data analytics: A technology tutorial. IEEE Access, 2:652–687, 2014.

[JGL+14] H. V. Jagadish, Johannes Gehrke, Alexandros Labrinidis, Yannis Papakonstantinou, Jignesh M. Patel, Raghu Ramakrishnan, and Cyrus Shahabi. Big data and its technical challenges. Commun. ACM, 57(7):86–94, jul 2014. 

[KGDL13] K. Kumar, Jonathan Gluck, Amol Deshpande, and Jimmy Lin. Hone: ”scaling down”hadoop on sharedmemory systems. Proceedings of the VLDB Endowment, 6:1354–1357, 08 2013. 

[Kia03] Melody Y. Kiang. A comparative assessment of classification methods. Decision Support Systems, 35(4):441–454, 2003. [LBG+12] Yucheng Low, Danny Bickson, Joseph Gonzalez, Carlos Guestrin, Aapo Kyrola, and Joseph M. Hellerstein. Distributed graphlab: A framework for machine learning and data mining in the cloud. Proc. VLDB Endow., 5(8):716–727, apr 2012. 

[LFJ13] Fu Lin, Makan Fardad, and Mihailo R. Jovanovi´c. Design of optimal sparse feedback gains via the alternating direction method of multipliers. IEEE Transactions on Automatic Control, 58(9):2426–2431, 2013. 

[Man11] J. Manyika. Big data: The next frontier for innovation, competition, and productivity. 2011.

 [QWD+16] Junfei Qiu, Qihui Wu, Guoru Ding, Yuhua Xu, and Shuo Feng. A survey of machine learning for big data processing. EURASIP Journal on Advances in Signal Processing, 2016, 05 2016. 

[SKIW17] Uthayasankar Sivarajah, Muhammad Mustafa Kamal, Zahir Irani, and Vishanth Weerakkody. Critical analysis of big data challenges and analytical methods. Journal of Business Research, 70:263–286, 2017. Página 6 de 7 Documento de Investigación (0-0-3)- rev.1 

[STG10] Yijun Sun, Sinisa Todorovic, and Steve Goodison. Local-learning-based feature selection for highdimensional data analysis. IEEE transactions on pattern analysis and machine intelligence, 32(9):16101626, Sep 2010. 20634556[pmid]. 

[Swa13] Melanie Swan. The quantified self: Fundamental disruption in big data science and biological discovery. Big Data, 1:85–99, 06 2013. 

[TLCY14] Chun-Wei Tsai, Chin-Feng Lai, Ming-Chao Chiang, and Laurence T. Yang. Data mining for internet of things: A survey. IEEE Communications Surveys & Tutorials, 16(1):77–97, 2014.

[wCL14] Xue wen Chen and Xiaotong Lin. Big data deep learning: Challenges and perspectives. IEEE Access, 2:514–525, 2014. 

[WZWD14] Xindong Wu, Xingquan Zhu, Gong-Qing Wu, and Wei Ding. Data mining with big data. IEEE Transactions on Knowledge and Data Engineering, 26(1):97–107, 2014. 

[ZBB14] Nadim Zgheib, Thomas Bonometti, and S. Balachandar. Long-lasting effect of initial configuration in gravitational spreading of material fronts. Theoretical and Computational Fluid Dynamics, 28(5):521529, 2014.

Compartir:
¿Dónde se aplica el Big Data?

Muchas veces nos preguntamos dónde se aplica el Big Data y podemos suponer una gran relevancia de Big Data para los negocios. Esto explica el gran in [...]

Leer más »
Tecnologías clave de la Industria 4.0

La Industria 4.0 es el nombre dado a la cuarta revolución industrial que se caracteriza por la inclusión de tecnologías avanzadas en los procesos d [...]

Leer más »
Oportunidad de negocio e inteligencia artificial

Las empresas son cada día más conscientes de la importancia de incorporar paulatinamente la inteligencia artificial a sus modelos de negocio. La imp [...]

Leer más »
El Efecto del Boca a Boca Digital: Cómo las Reseñas de Clientes Impactan en las Decisiones de Compra

En la era digital actual, las reseñas y comentarios de los clientes en línea se han convertido en un factor clave que influye en las decisiones de c [...]

Leer más »
Ver más entradas
© Gamco 2021, All Rights Reserved - Aviso legal - Privacidad - Cookies