En teoria i estadística de probabilitats, una distribució categòrica (també anomenada distribució de Bernoulli generalitzada, distribució multinoulli[1]) és una distribució de probabilitat discreta que descriu els possibles resultats d'una variable aleatòria que pot adoptar una de les K categories possibles, amb la probabilitat de cada categoria especificada per separat. No hi ha cap ordre subjacent innat d'aquests resultats, però sovint s'adjunten etiquetes numèriques per a més comoditat a l'hora de descriure la distribució (per exemple, d'1 a K). La distribució categòrica K -dimensional és la distribució més general sobre un esdeveniment K-camins; qualsevol altra distribució discreta sobre un espai mostral de mida K és un cas especial. Els paràmetres que especifiquen les probabilitats de cada possible resultat només estan limitats pel fet que cadascun ha d'estar en el rang de 0 a 1, i tots han de sumar 1.[2][3]
La distribució categòrica és la generalització de la distribució de Bernoulli per a una variable aleatòria categòrica, és a dir, per a una variable discreta amb més de dos possibles resultats, com ara el llançament d'un dau. D'altra banda, la distribució categòrica és un cas especial de la distribució multinomial, ja que dona les probabilitats de resultats potencials d'un únic dibuix en lloc de múltiples dibuixos.[4]
En una formulació de la distribució, l'espai mostral es considera una seqüència finita de nombres enters. Els nombres enters exactes utilitzats com a etiquetes no tenen importància; poden ser {0, 1, ..., k − 1} o {1, 2, ..., k } o qualsevol altre conjunt arbitrari de valors. A les descripcions següents, utilitzem {1, 2, ..., k } per comoditat, tot i que això no està d'acord amb la convenció per a la distribució de Bernoulli, que utilitza {0, 1}. En aquest cas, la funció de massa de probabilitatf és:
on , representa la probabilitat de veure l'element i i .
Referències
↑Murphy, K. P.. Machine learning: a probabilistic perspective (en anglès), 2012, p. 35. ISBN 0262018020.