El algoritmo de Bayes naive

18.01.2014 14:46

El algoritmo de Bayes naive de microsoft está basado en los teoremas de probabilidad de Bayes el cual  vincula la probabilidad de A dado B con la probabilidad de B dado A. Es decir que sabiendo la probabilidad de tener un dolor de cabeza dado que se tiene gripe, se podría saber (si se tiene algún dato más), la probabilidad de tener gripe si se tiene un dolor de cabeza.

El algoritmo de Bayes naive parte de algunas hipótesis simplificadoras adicionales. Es a causa de estas simplificaciones, que se suelen resumir en la hipótesis de independencia entre las variables predictoras, que recibe el apelativo de ingenuo (naive).

 El teorema de Bayes es válido en todas las aplicaciones de la teoría de la probabilidad. Sin embargo, hay una controversia sobre el tipo de probabilidades que emplea. En esencia, los seguidores de la estadística tradicional sólo admiten probabilidades basadas en experimentos repetibles y que tengan una confirmación empírica mientras que los llamados estadísticos bayesianos permiten probabilidades subjetivas. El teorema puede servir entonces para indicar cómo debemos modificar nuestras probabilidades subjetivas cuando recibimos información adicional de un experimento. La estadística bayesiana está demostrando su utilidad en ciertas estimaciones basadas en el conocimiento subjetivo a priori y el hecho de permitir revisar esas estimaciones en función de la evidencia empírica es lo que está abriendo nuevas formas de hacer conocimiento. Una aplicación de esto son los clasificadores bayesianos que son frecuentemente usados en implementaciones de filtros de correo basura o spam, que se adaptan con el uso.

 
Desde el punto de vista computacional, el algoritmo es menos complejo que otros algoritmos de Microsoft y, por tanto, resulta útil para generar rápidamente modelos de minería de datos para descubrir relaciones entre columnas de entrada y columnas de predicción. Puede utilizar este algoritmo para realizar la exploración inicial de los datos y, más adelante, aplicar los resultados para crear modelos de minería de datos adicionales con otros algoritmos más complejos y precisos desde el punto de vista computacional.

 
Para demostrar el concepto del algoritmo de Bayes , consideramos el ejemplo que se muestra en la ilustración siguiente . Dado un grupo de objetos que  pueden ser clasificados como verde o rojo,  nuestra tarea es la de clasificar nuevos casos a medida que llegan, es decir, decidir a qué clase de etiqueta  pertenecen, sobre la base de los objetos que existen actualmente.



Puesto que hay el doble de objetos verdes que de rojos, es razonable creer que un nuevo caso (que no se ha observado todavía) es dos veces más probable tque pertenezca a VERDE en lugar de a rojo. En el análisis Bayesiano, esta creencia es conocida como la probabilidad previa. Las probabilidades previas se basan en la experiencia anterior, en este caso el porcentaje de objetos verde y rojo, y, a menudo usados ​​para predecir los resultados antes de que ocurran.

Dado que hay un total de 60 objetos, 40 de las cuales son de color verde y 20 rojos  nuestras probabilidades previas para la pertenencia a una clase son:

Probabilidad de VERDE= 40/60

Probabilidad de ROJO = 20/60

Después de haber formulado nuestra probabilidad anterior, ahora estamos listos para clasificar un nuevo objeto (círculo blanco).



Dado que los objetos están bien agrupados, es razonable suponer que cuanto más objetos verdes (o rojos) haya en la vecindad de X, es más probable que los nuevos casos pertenezcan a ese color en particular. Para medir esta probabilidad, se dibuja un círculo alrededor de X, que abarca una serie (a elegir a priori) de puntos, independientemente de sus etiquetas de clase. Luego se calcula el número de puntos en el círculo de pertenencia a cada etiqueta de clase. A partir de este calculamos la probabilidad:

Probabilidad de X sea verde = 1/40

Probabilidad de X sea rojo = 3(20

Aunque las probabilidades previas indican que X puede pertenecer a VERDE (dado que hay dos veces más en comparación con rojo) la probabilidad indica lo contrario, que la pertenencia a una clase de X es rojo (dado que hay varios objetos de color rojo en la vecindad de X ). En el análisis bayesiano, la clasificación final se produce combinando ambas fuentes de información, es decir, la probabilidad anterior y la probabilidad,  posterior usando la regla de Bayes (llamado así por el Rev. Thomas Bayes 1702-1761).

Probabilidad de X sea Verde = 1/40 x 4/6 = 1/60

Probabilidad de X sea Rojo = 2/6 x 3/20= 1/20

Por tanto clasificamos a X como rojo.