Big Data: conceptos, información



Suprimiendo el sesgo en la contratación


big data en RRHH podrían hacer más equitativa la contratación y progresar la diversidad reduciendo el sesgo, afirma Zoe Jervier Hewitt de EQT Ventures a Protocol. Eso comienza aun antes de que los aspirantes sean entrevistados identificando qué criterios deben cumplir. Trato de hacer que el sistema de evaluación sea realmente hermético, y encuentro que hay menos espacio para que el corte no útil se introduzca en el proceso de esa manera, afirma Jervier Hewitt. Añade que una tarjeta de puntuación de la evaluación puede centrar la atención en la competencia de un candidato y tener un efecto positivo en la diversidad de la cañería y la diversidad de las contrataciones.


Aumento de la objetividad en la toma de resoluciones


Los profesionales de los recursos humanos siempre han confiado en los instintos viscerales utilizando datos muy gráficos, pero tienen la posibilidad de tomar resoluciones más objetivas incorporando big data, afirma Jaclyn Lee, oficial jefe de recursos humanos de la Universidad de Tecnología y Diseño de Singapur, al Director de Recursos Humanos.

La idea es mudar la mentalidad de uno que es reactivo a uno que es proactivo, afirma Lee. Eso puede incluir el aprendizaje de la depuración de datos y el análisis de datos, así como la manera de reconocer patrones en los datos.

Tener semejantes conocimientos de grandes análisis de datos e inteligencia artificial es todavía más esencial, puesto que con la cota de desempleo siendo tan baja como es, el liderazgo de RRHH no tiene mucho margen para 'hacerlo bien', dice Rachel Lyubovitzky de EverythingBenefits a Forbes. Comprender las tendencias más extensas de RRHH en múltiples organizaciones y poder aprovechar las experiencias compartidas deja a los empleadores tomar mejores decisiones.

Modernizando el almacen de big data, ha llegado el instante


En el espacio de la tecnología y el análisis de datos, me recuerdan de manera continua que la única incesante es el cambio. A esta industria le chifla crear. Una y otra vez innovamos para superar los retos inmediatos y futuros - con soluciones que abordan la necesidad de más datos, análisis más rápidos y una mejor arquitectura.

La innovación suele proseguir una trayectoria de algo renovador, seguida de años de mejoras incrementales que maduran la oferta y la hacen aplicable a las masas. Si bien estos cambios incrementales son en general simples de agregar, el problema es que primero tenemos que incorporar la innovación innovadora. Esta transición en general requiere cambios en los procesos, capacitación, re-estructuración y una larga y dolorosa migración. En último término, esto conduce a los ciclos de exageración tecnológica, en los que las compañías evalúan individualmente en qué momento o incluso si el peligro y la lucha por hacer un cambio vale la pena.


cuatro grandes desarrollos tecnológicos


Cuatro desarrollos tecnológicos indispensables afectan al gran acervo de información de las compañías de hoy en día:

  1. La contenedorización y los kubernetes son un cambio en el juego. 
    Los contenedores (y la orquestación de los kubernetes) pueden ofrecer muchos beneficios para los grandes ambientes de datos. Con los contenedores, puede separar la computación del almacenamiento. Esta capacidad le deja dimensionar correctamente su solución, impulsar una mayor eficacia y optimizar la utilización de su PC. Los contenedores también le permiten englobar el ecosistema en constante evolución de las herramientas de código abierto, lo que deja a los analistas y científicos de datos crear sus herramientas preferidas en cuestión de minutos, a la vez que consiguen acceso a los datos que necesitan. Además de esto, se consigue portabilidad, flexibilidad y agilidad de las aplicaciones, lo que significa que se pueden desplegar veloz y fácilmente aplicaciones de datos intensivos en las instalaciones o bien en cualquier nube.

  2. Los datos están en todas partes - en prem, nube híbrida, multi-nube, y en el borde.
    Originalmente, el enorme conjunto de datos de la mayoría de las compañías estaba plantado firmemente en las instalaciones. Mas se están desplegando más aplicaciones en la nube pública y a menudo en múltiples nubes públicas. Y con el volumen cada vez mayor de datos generados en el borde (así como las mejoras en la red), es preciso pensar en los datos de forma global - desde el borde hasta la nube. Su próxima gran plataforma de datos debe adaptarse a las necesidades de su negocio y a los datos de todas partes. Y he de ser flexible para adaptarse a las instalaciones, a la nube híbrida, a la multi-nube y a los despliegues de computación en el borde.

  3. El ecosistema de código abierto prosigue evolucionando.
    Las empresas precisan probar sus grandes inversiones en datos a futuro. Con el tiempo, algunos distribuidores se han centrado en el modelo de código abierto puro. Otros han proporcionado software comercial de valor añadido basado en la tecnología de código abierto. Resulta que ambos enfoques son adecuados. Usted va a querer herramientas optimados de su proveedor de soluciones cuando tenga sentido, pero su porvenir gran acervo de datos también precisa evolucionar con la velocidad de la innovación de código abierto. Al implementar una solución con la capacidad de desplegar cualquier marco de trabajo de código abierto, está listo para esta constante evolución, al paso que da a sus científicos de datos acceso a los últimos conjuntos de herramientas de código abierto.

  4. Hacer invisible la infraestructura - mientras que se garantiza el rendimiento, la resistencia, la seguridad y la alta disponibilidad. 
    Recuerdo un comentario que un CTO me hizo hace múltiples años. Al discutir un punto sobre de qué manera mejorar el desempeño de los lagos de datos, dijo: A ustedes les importa la infraestructura; a nosotros no nos importa la infraestructura. Desde entonces he abrazado este mantra (tras todo, los equipos de ciencias de los datos no quieren tener que preocuparse por el almacenamiento latente, la computación y las redes), pero la infraestructura prosigue siendo esencial. Podemos ocultar la dificultad de la infraestructura, haciendo que la implementación de las aplicaciones sea tan fácil y tan perfecta como sea posible. Mas si no diseña su solución para garantizar la seguridad, el rendimiento y otros requisitos de nivel empresarial, no va a poder entrar en producción. Y, en última instancia, no proporcionará valor empresarial.




Hewlett Packard Enterprise puede asistir


Hewlett Packard Enterprise (HPE) sabe de primera mano que las organizaciones empresariales - y sus aplicaciones críticas para el negocio y de empleo intensivo de datos - están atrapadas en esta tormenta de incertidumbre y cambio. Recientemente hemos emprendido nuestro viaje de modernización para cumplir con nuestra visión de un negocio basado en datos. Nuestra nueva solución elástica de análisis de datos aprovecha los contenedores, el hardware más reciente y los conjuntos de herramientas de código abierto para aportar velocidad y agilidad a nuestra toma de resoluciones y fortalecer a nuestros usuarios de todo el mundo desde el borde hasta la nube.

Desafortunadamente, no hay un botón simple, ya que cada organización tiene sus requisitos. Pero HPE puede asistir a los clientes del servicio a navegar por este proceso. HPE tiene un completo portafolio de soluciones, experiencia y soporte para ayudar a actualizar su gran acervo de datos.

Para reducir el riesgo del proceso de modernización, creamos el Programa de Evaluación de AMP de HPE para asistir a los clientes a contestar a las preguntas difíciles sobre su gran acervo de información de datos. Con este ofrecimiento, HPE hará: Examinar su plataforma de estado actual, proporcionar un mapa detallado para actualizar su plataforma actual de una manera que satisfaga las necesidades de negocios de su organización, y por último, prescribir un plan sistemático para llegar allí. Y a resultas de la Evaluación AMP, HPE puede aprovechar todo su arsenal de software de HPE Ezmeral, hardware de clase mundial y servicios probados para ofrecer la solución conveniente a sus necesidades específicas.





Las 4 V de el big data


Para los científicos de datos, el término de big data se puede descomponer en lo que llaman las cuatro V. Si bien ciertas escuelas de pensamiento dicen que podría haber hasta 10 V's, aquí están los 4 primordiales calificadores que ayudan a explicar cuando un flujo de datos se transforma en un enorme flujo de datos.

Volumen


Merced a la gran cantidad de datos disponibles diariamente, el big data tienden a ocupar un sinnúmero de ancho de banda y almacenaje. Miles de bytes pueden atravesar la Internet, especialmente con el uso extendido de la Internet de banda ancha. En verdad, según una encuesta de IBM, se estima que este año se van a crear cuarenta zettabytes de datos, lo que supone un incremento del 300 por cien con respecto a dos mil cinco. Estas enormes cantidades requieren una tecnología de datos de importante tamaño que pueda manejar grandes conjuntos de datos.

Velocidad


Los datos fluyen a través de Internet a tal velocidad que si intentaras analizarlos por tu cuenta, sería como intentar tomar de la manguera de agua más grande y poderosa del planeta. La rapidez con la que se mueven los datos aumenta exponencialmente en función del número de conexiones que la gente tiene entre sí, puesto que probablemente estés mandando mensajes de texto, que te agraden los mensajes de los medios sociales y que hagas acuerdos comerciales con ellos. La velocidad a la que los datos entrantes necesitan ser procesados es un sello distintivo de el big data.

Variedad


Los datos pueden reunirse de muchas fuentes diferentes, como las diferentes redes sociales, las transacciones comerciales y de consumo, y la proliferación de dispositivos inteligentes que recogen datos de los usuarios (de forma frecuente involuntarios). De manera análoga, esos datos pueden presentarse en diferentes formatos y estructuras de archivo, desde información de bases de datos estrictamente clasificada hasta trasferencias de ficheros y comunicaciones en tiempo real.

Veracidad


Los datos imprecisos son datos inútiles. Además de esto, los datos imprecisos le cuestan a la economía de los EE.UU. más o menos 3,1 billones de dólares de año en año, conforme la encuesta de IBM. Muchos líderes empresariales consideran que el big data son una apuesta, con 1 de cada 3 encuestados diciendo que no confían en la información que dan el big data. Sin embargo, la tecnología de el big data trata de mitigar ese inconveniente tanto como resulte posible.




De qué manera el big data pueden ayudar a las finanzas de las empresas


el big data son ahora una parte de nuestra vida rutinaria, ¡aun si somos conscientes de ello o no! La analítica, la IA y otros programas de datos en funcionamiento recogen continuamente información, que nos da una idea de quién, qué y dónde ocurre una transacción. Las compañías más grandes han implementado estos datos para satisfacer la siempre y en todo momento alterable demanda de los clientes y promover las ventajas y atenuar las pérdidas.

Sin embargo, esta información recopilada puede ser bastante inútil tratándose de datos salvo que esté categorizada, y las empresas saben lo que están buscando. Esto significa que los datos entrantes deben organizarse eficazmente a fin de que las empresas puedan utilizarlos para identificar la información sobre sus finanzas y actuar en consecuencia con los datos.

En el artículo se discutirá de qué manera el big data pueden ayudar a las finanzas de las compañías y qué es lo que hay que buscar para hacer las mejoras.


Perspectivas en tiempo real de el big data


Uno de las ventajas más sobresalientes que el big data tienen para ofrecer a un negocio es la comprensión en tiempo real. Nunca ya antes habíamos sido capaces de monitorear los precios de la demanda con precisión, nuestros competidores, las tendencias en el mercado de valores, o bien incluso las tendencias políticas y sociales justo cuando suceden. Debido a la cantidad de datos que se recogen, los datos apropiados y relevantes son entonces tamizados, y esto puede ser organizado y presentado como un medio para guiar la siguiente resolución del negocio.


 Detección y prevención del fraude con big data


Otro beneficio útil de tener big data al alcance de un negocio es que la IA puede notar patrones o comportamientos infrecuentes, advirtiendo rápidamente el fraude. Algunos de estos patrones infrecuentes pueden incluir hábitos de gasto sospechosos de tarjetas de crédito o grandes cantidades de dinero gastadas. Esto se marca de manera automática como sospechoso, lo que quiere decir que la interacción puede cerrarse a una velocidad significativa, y los bancos pueden ser alertados.

Desafortunadamente, el fraude financiero es extremadamente común, por lo que progresar la recolección de datos on line y otros programas de inteligencia artificial puede ayudar a limitar el daño que el fraude puede causar a sus víctimas.



Big data: ¿Qué tan extenso debe ser tu lente? Depende de su uso


La cantidad de datos que entran en su sistema puede marcar gran diferencia en su almacenamiento, ancho de banda y presupuesto. Considere la posibilidad de reducir su apertura.

Con big data que llegan a las organizaciones Click Here de todo el mundo a razón de dos con cinco quintillones de bytes de datos día tras día, corresponde a las organizaciones determinar qué cantidad de estos big data es vital y necesaria, y qué porciones de el big data son excesivas y pueden eliminarse antes de que los datos lleguen a los sistemas corporativos. Si las empresas no lo hacen, el ancho de banda, el almacenaje y las capacidades de procesamiento se pueden sobrepasar, junto con los presupuestos.

Para cada operación y análisis que las compañías realizan con big data, la clave es delimitar cada caso de uso comercial de antemano y predeterminar la cantidad de datos que verdaderamente precisará para abordar el caso comercial. Inevitablemente, va a haber ciertos datos que simplemente no se necesitan. Separar estos datos de su proceso de ingestión de datos es lo que yo llamo estrechar la apertura de la lente mediante la que los datos fluyen cara su depósito de datos.

Acá hay 2 ejemplos discordantes de ajuste de la lente de datos:

IBM RoboRXN y la mecánica de la formulación molecular


Cuando IBM diseñó su proyecto RoboRXN, que recoge enormes cantidades de datos no editados de la comunidad mundial de código abierto y otros sobre posibles combinaciones moleculares para la formulación de productos, hubo que tomar resoluciones sobre la cantidad de esos datos que era pertinente para el proyecto en el que estaban trabajando.

El proyecto RoboRXN se centró en el diseño de nuevas moléculas para soluciones farmacéuticas, como la vacuna COVID-19. Esto significaba que no se necesitaban libros blancos, resultados de investigaciones estadísticas y otras fuentes de investigación que no guardaban relación directa con el proyecto de formulación molecular en el que se estaba trabajando. Lo que IBM decidió hacer fue implementar la inteligencia artificial (IA) al frente del proceso de ingestión de datos mientras que este enorme tesoro de datos no editados se estaba amontonando.

El algoritmo de IA propuso una pregunta importante: ¿Cada elemento de los datos entrantes contenía algo relevante para el enfoque del proyecto? Para las investigaciones que no estaban en lo más mínimo relacionadas con el proyecto, o bien que solo estaban relacionadas de forma distante y tangencial, la IA suprimió los datos, con lo que jamás fueron admitidos en el depósito de datos. En otras palabras, la apertura de la lente de datos al repositorio de datos del proyecto se estrechó, admitiendo sólo aquellos elementos de datos que eran relevantes para el proyecto. Como resultado, se redujo el almacenamiento y el procesamiento de datos, y también el costo.

El SETI y la búsqueda de vida extraterrestre


Fundado en 1984, la misión del Instituto SETI era buscar vida extraterrestre. Esto se hizo mediante la vigilancia de las señales de radio y las emisiones del espacio para determinar si había algún patrón repetitivo que pudiera significar una comunicación de otra forma de vida. Científicos y voluntarios participaron en la iniciativa del SETI, examinando minuciosamente montañas de señales de radio sin editar que fluían sin cesar.

En este esfuerzo, se pudieron hacer pocas suposiciones de antemano sobre los datos buenos frente a los malos, pues absolutamente nadie estaba absolutamente seguro de lo que buscaba. En consecuencia, había pocas maneras de estrechar la apertura de la lente de datos, que debía mantenerse abierta. Esto dio sitio a altos niveles de procesamiento, almacenaje y trabajo manual.

Lo que el Instituto pudo hacer fue reducir los datos tras haberlos buscado en suma para localizar señales potenciales que pudiesen apuntar formas de vida inteligentes. En este punto, solo las señales con potencial de vida necesitaban ser almacenadas en bases de datos mucho más pequeñas.



Los cinco pasos principales para una buena ciencia de los datos


Mucha gente habla de la ciencia de los datos. Pocos saben de qué están hablando y aún menos son conscientes de cómo funciona. Pero, se usa en todas y cada una partes en nuestros días, con lo que aun si no eres un científico de datos, es bueno saber cuáles son los pasos básicos. Acá hay 5 pasos básicos para la ciencia de los datos.

  1. ¿Por qué razón lo haces? ¿Estás resolviendo un inconveniente? ¿Qué inconveniente es? La ciencia de los datos no es una salsa que se esparce sobre las cosas para mejorarlas de alguna manera. Es una forma de abordar los problemas. Sepa qué problema intenta solucionar su empresa ya antes de solicitarle a la ciencia de los datos que lo resuelva.

  2. Recopile los datos. En el momento en que conozca la razón de su negocio, su científico de datos puede comenzar a descubrir qué datos pertenecen a él y recogerlos. No se limite a elegir los datos libres o se arriesgue a introducir un sesgo.

  3. Analice los datos. El análisis exploratorio de datos (EDA) es el enfoque más común. Revela lo que los datos pueden decirle. El EDA acostumbra a ser bueno para descubrir las áreas en las que se quiere compilar más datos. Un buen EDA usa un conjunto predefinido de directrices y umbrales para ayudar a superar el sesgo.

  4. Edifique sus modelos y pruebe si son válidos. En el momento en que haya analizado los datos puede hacer su modelo de aprendizaje automático que tiene como propósito administrar una buena solución al inconveniente de la empresa. Antes de establecer un modelo, asegúrese de experimentar con ciertas opciones y ciclos de validación convenientes.

  5. Resultados. Ejecute el modelo y también interprete los resultados. Mucha gente no se da cuenta de que la inteligencia artificial no sólo le afirma la solución a su inconveniente. Los modelos de aprendizaje automático ofrecen resultados que los humanos interpretan. Los conocimientos de los científicos de datos son los que hacen que el resultado sea algo sobre lo que se pueda actuar.


Seguro que esto causa que suene de esta forma de fácil, y obviamente cualquier científico de datos sabe que la prueba está en todo ese trabajo para hacer que estas cosas sucedan, pero conocer lo básico puede asistir a tomar mejores resoluciones que van a ayudar a sus científicos de datos a hacer mejor su trabajo. Todo el mundo gana. Incluso la máquina.

Certificaciones en ciencias de la información para mejorar tu currículo y tu sueldo.


A finales de agosto, Glassdoor tenía más de 53.000 ofertas de empleo que mentaban el aprendizaje automático (ML) y 20.000 trabajos que incluían la ciencia de los datos con salarios que iban de cincuenta a más de ciento ochenta dólares. Cada vez más empresas hacen del análisis de datos y del aprendizaje automático un elemento central del desarrollo de nuevos productos y de las oportunidades de ingresos futuros.

Las grandes empresas de tecnología, como las organizaciones tecnológicas independientes, ofrecen programas de capacitación para personas que son nuevas en la ciencia de los datos, de este modo para profesionales que desean dominar la tecnología más reciente. Cada programa de esta lista de los mejores cursos online para la ciencia de los datos ampliará su experiencia y agregará un valioso elemento de línea en forma de certificación de ciencia de los datos a su currículo.

Ingeniero profesional de aprendizaje automático de Google


Si puedes pasar este examen que está en versión beta, eres certificado por Google Cloud. Google recomienda que los examinandos tengan cuando menos tres años de experiencia práctica con los productos y soluciones de Google Cloud.

El examen dura cuatro horas y cuesta ciento veinte dólares. Las 6 secciones del examen cubren:

  • Enmarcar el inconveniente del ML

  • Arquitectura de la solución ML

  • Preparación y procesamiento de datos

  • Desarrollo del modelo de ML

  • Automatización y orquestación del oleoducto de ML

  • Monitoreo, optimización y mantenimiento de la solución de ML




Certificación en Inteligencia de Negocios de Oracle


Esta formación va a preparar a las personas para emplear el software de Oracle para optimizar las operaciones comerciales y crear informes, modelos y previsiones. Oracle ofrece formación en inteligencia empresarial en cuatro categorías:

  1. BI Enterprise Edition - aprenda a construir y dirigir cuadros de mando

  2. Essbase - aprenda a utilizar el procesamiento metódico online para pronósticos y análisis

  3. BI Publisher - aprende a crear y dar informes y otros documentos

  4. Aplicaciones de BI - aprenda a instalar, configurar y personalizar las aplicaciones de BI de Oracle y el almacén de inteligencia de negocios de Oracle


Las certificaciones están libres para los dos primeros programas de entrenamiento.

El programa de certificado de desarrollo de TensorFlow


Los desarrolladores que aprueben el examen pueden unirse a la Red de Certificados de TensorFlow. Este manual cubre los criterios para tomar el examen, incluyendo una lista de verificación de habilidades, elegibilidad y recursos permitidos durante el examen.

Para aprobar el examen, los examinandos deben entender:

  1. Los principios esenciales del ML y el aprendizaje profundo

  2. Construyendo modelos de ML en TensorFlow 2.x

  3. Construyendo reconocimiento de imágenes, detección de objetos, algoritmos de reconocimiento de texto con redes neuronales profundas y redes neuronales convolucionales

  4. Utilizando imágenes del planeta real de diferentes formas y tamaños para visualizar el viaje de una imagen a través de las convoluciones para entender

  5. de qué manera una computadora ve la información, la pérdida de la trama y la precisión

  6. Explorando estrategias para prevenir el exceso de equipamiento, incluyendo el incremento y los abandonos

  7. Aplicando redes neuronales para resolver problemas de procesamiento de lenguaje natural utilizando TensorFlow


Si estos temas son nuevos para ti, echa una ojeada al DeepLearning.ai TensorFlow in Practice Specialization on Coursera o bien al curso de Introducción al TensorFlow for Deep Learning sobre Udacity.

El examen cuesta 100 dólares americanos.

Leave a Reply

Your email address will not be published. Required fields are marked *