大数据:处理和分析培训
INTRODUCCIÓN
LA MÁQUINA VIRTUAL
<b>ATENCIÓN: Si ya te instalaste la máquina virtual en el curso anterior de
la Especialización no es necesario que vuelvas a hacerlo. En caso contrario,
sigue leyendo.</b><br><br>Los ejercicios y sesiones prácticas pretenden mostrar un caso práctico
de procesamiento y análisis de datos en el contexto de Big Data. En este sentido, será necesario trabajar
con una máquina virtual que ya trae configuradas e instaladas una serie de componentes habituales
al manejar Big Data. En este apartado te explicamos cómo descargar e instalar
la máquina virtual Cloudera en tu ordenador.
La MV-Cloudera requiere disponer de un equipo con las siguientes características: (1) máquina de 64 bits,
(2) mínimo 6G de memoria (recomendable 8G), y
(3) 20G disponibles en disco.<br><br> <i><b>Ten en cuenta
que bajar e instalar la máquina virtual te llevará tiempo dado
el tamaño y complejidad de la misma</i></b>
MATERIAL DE PRÁCTICAS Y FICHEROS DE TRABAJO
Para poder seguir la parte aplicada del curso, responder a los cuestionarios y trabajar
con las herramientas que te explicamos, necesitarás acceder a una serie de ficheros de código,
así como las bases de datos de trabajo, que hemos recopilado y comprimido.
Verás que algunos vídeos llevan un código entre paréntesis que coincide
con el nombre de alguno de estos ficheros. Esto significa que en el vídeo correspondiente se trabaja con dicho fichero.
<br><br>A continuación te explicamos como incorporarlos en la máquina virtual.
MÓDULO 1 - Análisis Exploratorio de Datos
Durante la primera semana del curso se introducen el curso y las herramientas que se emplearán.
Además también se presentan las tareas relacionadas con el Análisis Exploratorio de Datos.
Cada pocos temas tratados en los vídeos encontrarás un pequeño custionario de 5 preguntas.
<br><br><i>Visualiza los vídeos, contesta los cuestionarios tantas veces como quieras,
y accede a los foros para discutir los temas que te parezcan más interesantes.</i>
MÓDULO 2 - MODELOS DE REGRESIÓN
En el módulo 2 del curso se introducen conceptos
de modelización generales (calibración y validación) y en particular
los modelos de regresión lineal y regresión logística.
Desde la perspectiva de Big Data, se incluyen aspectos relacionados con
la regularización de los modelos para su simplificación. <br><br><i>Como en
el módulo anterior, visualiza los vídeos, contesta los cuestionarios tantas veces como quieras,
y accede a los foros para discutir los temas que te parezcan más interesantes.</i>
MÓDULO 3 - ÁRBOLES DE REGRESIÓN Y CLASIFICACIÓN
En el módulo 3 del curso se introduce la família de modelos basada
en árboles (clasificación, regresión, bosques) y aspectos generales sobre
la incertidumbre y el sobreajuste. Después de cada tema, o de unos pocos temas,
encontrarás un cuestionario para comprobar tu nivel de comprensión de los mismos.
<br><br><i>Visualiza los vídeos, contesta los cuestionarios tantas veces como quieras,
y accede a los foros para discutir los temas que te parezcan más interesantes.</i>
MÓDULO 4 - REDES NEURONALES Y TÉCNICAS NO SUPERVISADAS
En el módulo 4 del curso se introduce la família de modelos basada
en redes neuronales así como se introducen las técnicas básicas
no supervisadas, tanto de clasificación automática como de reducción
de la dimensionalidad. En este módulo, además de los cuestionarios convencionales,
tendrás que realizar un trabajo práctico en el que trabajarás las técnicas aprendidas hasta
el momento.<br><br><i>Visualiza los vídeos,
contesta los cuestionarios tantas veces como quieras,
realiza el ejercicios práctico, y accede a los foros para discutir los temas que te parezcan más interesantes.</i>