Plantilla de Pre Procesado
Librerías Básicas
numpy :Contiene herramientas matemáticas. matplotlib.pyplop : Representación gráfica . pandas : Carga y manipulación de datos .
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
Importar el data set Sintaxis para cargar un csv con pandas
dataset = pd.read_csv("Data.csv")
iloc: sirve para localizar elementos por posición .iloc[filasinicio : filafinal, columnainicio : columnafinal] values: sirve para extraer el valor y no las posiciones.
X = dataset.iloc[:, :-1].values
Y = dataset.iloc[:, 3].values
Tratamientos de los nan o valores Nulos importamos solo una parte de la librería con la siguietne sintaxis
from sklearn.preprocessing import Imputer
creando un objeto llamado imputer de la clase Imputer para manipulacion de nan
parametro missing_values : para saber los valores que deben ser detectados como desconocidos o nan
parametro strategy : se trata de la menra de reemplazar los valores nan en este caso se reemplaza por la media "mean"
parametro axis : es para indicar si se sustituye por la media de la fila o columna, si es fila "axis=1"
y si es columna "axis=0"
imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
metodo fit recibe un objeto y lo arregla "nan" En python cuando se pone 1:3 en realidad esta tomando valores desde el 1 hasta el 2 python no reconoce el ultimo elemento al igualar el imputer al imputer.fit lo que se hace es sobreescribir los valores modificados por ultimo se sobreescriben los valores en X trasform se encarga de devolver y sustituir lo valores desconocidos a X
imputer = imputer.fit(X[:, 1:3])
X[:, 1:3] = imputer.transform(X[:, 1:3])