La ciencia de datos está en constante evolución, por lo que dominar sus habilidades fundamentales técnicas y sociales le ayudará a tener éxito en una carrera como científico de datos, así como a perseguir conceptos avanzados, como el aprendizaje profundo y la inteligencia artificial.
La ciencia de datos es un campo tan amplio que incluye varias subdivisiones como preparación y exploración de datos, representación y transformación de datos, visualización y presentación de datos, análisis predictivo y aprendizaje automático, etc. Para los principiantes, es natural plantearse la siguiente pregunta: ¿Qué habilidades ¿Necesito convertirme en científico de datos?
Este artículo discutirá 10 habilidades esenciales que son necesarias para los científicos de datos en práctica. Estas habilidades pueden agruparse en 2 categorías, a saber, habilidades tecnológicas (matemáticas y estadística, habilidades de codificación, habilidades de preprocesamiento y manipulación de datos, habilidades de visualización de datos, habilidades de aprendizaje automático y habilidades de proyectos del mundo real) y habilidades blandas ( habilidades de comunicación, aprendizaje permanente). Habilidades, habilidades de jugador en equipo y habilidades éticas).
1. Destrezas en matemáticas y estadística
(i) Estadística y probabilidad
La estadística y probabilidad se utiliza para la visualización de características, preprocesamiento de datos, transformación de características, imputación de datos, reducción de dimensionalidad, ingeniería de características, evaluación de modelos, etc. Estos son los temas con los que debe estar familiarizado:
a) media
b) mediana
c) Moda
d) Desviación estándar/ varianza
e) Coeficiente de correlación y matriz de covarianza
f) Distribuciones de probabilidad (Binomial, Poisson, Normal)
g) valor p
h) MSE (error cuadrático medio)
i) Puntaje R2
j) Teorema de Baye (precisión, recall, valor predictivo positivo, valor predictivo negativo, matriz de confusión, curva ROC)
k) Pruebas A / B
l) Simulación de Monte Carlo
(ii) Cálculo multivariable
La mayoría de los modelos de aprendizaje automático se crean con un conjunto de datos que tiene varias características o predictores. Por lo tanto, la familiaridad con el cálculo multivariable es extremadamente importante para construir un modelo de aprendizaje automático. Estos son los temas con los que debe estar familiarizado:
a) Funciones de varias variables
b) Derivadas y gradientes
c) Step function, Sigmoid function, Logit function, ReLU (Rectified Linear Unit) function
d) Función de coste
e) Trazado de funciones
f) Valores mínimos y máximos de una función
(iii) Álgebra lineal
El álgebra lineal es la habilidad matemática más importante en el aprendizaje automático. Un conjunto de datos se representa como una matriz. El álgebra lineal se utiliza en el preprocesamiento de datos, la transformación de datos y la evaluación de modelos. Estos son los temas con los que debe estar familiarizado:
a) Vectores
b) Matrices
c) Transponer una matriz
d) La inversa de una matriz
e) El determinante de una matriz
f) Producto escalar
g) Autovalores
h) Vectores propios
(iv) Métodos de optimización
La mayoría de los algoritmos de aprendizaje automático realizan modelos predictivos minimizando una función objetivo, aprendiendo así los pesos que deben aplicarse a los datos de prueba para obtener las etiquetas predichas. Estos son los temas con los que debe estar familiarizado:
a) Función de coste / función objetivo
b) Función de verosimilitud
c) Función de error
d) Algoritmo de descenso de gradiente y sus variantes (por ejemplo, algoritmo de descenso de gradiente estocástico)
2. Habilidades de programación esenciales
Las habilidades de programación son esenciales en la ciencia de datos. Dado que Python y R se consideran los dos lenguajes de programación más populares en ciencia de datos, el conocimiento esencial en ambos lenguajes es crucial. Es posible que algunas organizaciones solo requieran habilidades en R o Python, no en ambos.
(i) Habilidades en Python
Familiarísate con las habilidades básicas de programación en Python. Estos son los paquetes más importantes que debes dominar:
a) Numpy
b) Pandas
c) Matplotlib
d) Seaborn
e) Scikit-aprender
f) PyTorch
(ii) Habilidades en R
a) Tidyverse
b) Dplyr
c) Ggplot2
d) Caret
e) Stringr
(iii) Habilidades en otros lenguajes de programación
Algunas organizaciones o industrias pueden requerir habilidades en los siguientes lenguajes de programación:
a) Excel
b) Tableau
c) Hadoop
d) SQL
e) Spark
3. Habilidades de preprocesamiento y manipulación de datos
Los datos son clave para cualquier análisis en ciencia de datos, ya sea análisis inferencial, análisis predictivo o análisis prescriptivo. El poder predictivo de un modelo depende de la calidad de los datos que se utilizaron para construir el modelo. Los datos vienen en diferentes formas, como texto, tabla, imagen, voz o video. La mayoría de las veces, los datos que se utilizan para el análisis deben extraerse, procesarse y transformarse para convertirlos en una forma adecuada para un análisis posterior.
i) Data Wrangling:
El proceso de data wrangling es un paso crítico para cualquier científico de datos. Muy rara vez se puede acceder fácilmente a los datos en un proyecto de ciencia de datos para su análisis. Es más probable que los datos estén en un archivo, una base de datos o se extraigan de documentos como páginas web, tweets o PDF. Saber cómo disputar y limpiar los datos te permitirá obtener información crítica de tus datos que de otro modo estarían ocultos.
ii) Preprocesamiento de datos :
El conocimiento sobre el preprocesamiento de datos es muy importante e incluye temas como:
a) Manejo de los datos faltantes
b) imputación de datos
c) Manejo de datos categóricos
d) Encoding de clases de codificación para problemas de clasificación
e) Técnicas de transformación de características y reducción de dimensionalidad, tales como Análisis de Componentes Principales (PCA) y Análisis Discriminante Lineal (LDA).
4. Habilidades de visualización de datos
Comprender los componentes esenciales de una buena visualización de datos.
a) Componente de datos : Un primer paso importante para decidir cómo visualizar los datos es saber qué tipo de datos son, por ejemplo, datos categóricos, datos discretos, datos continuos, datos de series de tiempo, etc.
b) Componente geométrico: aquí es donde decide qué tipo de visualización es adecuada para sus datos, por ejemplo, diagrama de dispersión, gráficos de líneas, diagramas de barras, histogramas, qqplots, smooth densities, diagramas de caja, diagramas de pares, mapas de calor, etc.
c) Componente de mapeo: aquí debe decidir qué variable usar como su variable x y qué usar como su variable y. Esto es importante, especialmente cuando su conjunto de datos es multidimensional con varias características.
d) Componente de escala: aquí decide qué tipo de escalas usar, por ejemplo, escala lineal, escala logarítmica, etc.
e) Componente de etiquetas: Esto incluye cosas como etiquetas de ejes, títulos, leyendas, tamaño de fuente a usar, etc.
f) Componente ético : aquí, desea asegurarse de que su visualización cuente la historia real. Debe ser consciente de sus acciones al limpiar, resumir, manipular y producir una visualización de datos y asegurarse de que no está utilizando su visualización para engañar o manipular a su audiencia.
5. Habilidades básicas de aprendizaje automático
El aprendizaje automático es una rama muy importante de la ciencia de datos. Es importante comprender el marco de aprendizaje automático: elaboración de problemas, análisis de datos, creación de modelos, pruebas y evaluación y aplicación de modelos. Obtenga más información sobre el marco de aprendizaje automático desde aquí: El proceso de aprendizaje automático .
Los siguientes son algoritmos importantes de aprendizaje automático con los que debe familiarizarse.
i) Aprendizaje supervisado (predicción variable continua)
a) Regresión básica
b) Análisis de multirregresión
c) Regresión regularizada
ii) Aprendizaje supervisado (predicción de variable discreta)
a) Clasificador de regresión logística
b) Clasificador de máquina de vectores de soporte
c) Clasificador K-vecino más cercano (KNN)
d) Clasificador de árbol de decisión
e) Clasificador Random Forest
iii) Aprendizaje no supervisado
a) Algoritmo de agrupación de KMeans
6. Habilidades de proyectos de ciencia de datos capstone del mundo real
Las habilidades adquiridas solo con el trabajo del curso no lo convertirán en un científico de datos. Un científico de datos calificado debe poder demostrar evidencia de la finalización exitosa de un proyecto de ciencia de datos del mundo real que incluye todas las etapas de la ciencia de datos y el proceso de aprendizaje automático, como encuadre de problemas, adquisición y análisis de datos, construcción de modelos, pruebas de modelos, evaluación de modelos. e implementación de modelos. Los proyectos de ciencia de datos del mundo real se pueden encontrar en lo siguiente:
a) Proyectos de Kaggle
b) Pasantías
c) De entrevistas
7. Habilidades de comunicación
Los científicos de datos deben poder comunicar sus ideas con otros miembros del equipo o con los administradores comerciales de sus organizaciones. Las buenas habilidades de comunicación jugarían un papel clave aquí para poder transmitir y presentar información muy técnica a personas con poca o ninguna comprensión de los conceptos técnicos en ciencia de datos. Las buenas habilidades de comunicación ayudarán a fomentar una atmósfera de unidad y unión con otros miembros del equipo, como analistas de datos, ingenieros de datos, ingenieros de campo, etc.
8. Sea un aprendiz de por vida
La ciencia de datos es un campo en constante evolución, así que prepárese para adoptar y aprender nuevas tecnologías. Una forma de mantenerse en contacto con los desarrollos en el campo es establecer una red con otros científicos de datos. Algunas plataformas que promueven la creación de redes son LinkedIn, GitHub y Medium ( publicaciones Towards Data Science y Towards AI ). Las plataformas son muy útiles para obtener información actualizada sobre desarrollos recientes en el campo.
9. Habilidades del jugador de equipo
Como científico de datos, trabajará en un equipo de analistas de datos, ingenieros y administradores, por lo que necesita buenas habilidades de comunicación. También debe ser un buen oyente, especialmente durante las primeras fases de desarrollo del proyecto, donde debe confiar en ingenieros u otro personal para poder diseñar y enmarcar un buen proyecto de ciencia de datos. Ser un buen jugador de equipo le ayudará a prosperar en un entorno empresarial y a mantener buenas relaciones con otros miembros de su equipo, así como con los administradores o directores de su organización.
10. Habilidades éticas en ciencia de datos
Comprenda las implicaciones de su proyecto. Sea sincero consigo mismo. Evite manipular datos o utilizar un método que produzca intencionalmente un sesgo en los resultados. Sea ético en todas las fases, desde la recopilación y el análisis de datos hasta la creación, el análisis, las pruebas y la aplicación de modelos. Evite fabricar resultados con el propósito de engañar o manipular a su audiencia. Sea ético en la forma en que interpreta los hallazgos de su proyecto de ciencia de datos.
En resumen, hemos analizado 10 habilidades esenciales necesarias para la práctica de los científicos de datos. La ciencia de datos es un campo que está en constante evolución, sin embargo, dominar los fundamentos de la ciencia de datos le proporcionará los antecedentes necesarios que necesita para perseguir conceptos avanzados como el aprendizaje profundo, la inteligencia artificial, etc.
Articulo original: https://towardsdatascience.com/data-science-minimum-10-essential-skills-you-need-to-know-to-start-doing-data-science-e5a5a9be5991
Comentarios recientes