Share to: share facebook share twitter share wa share telegram print page

N-gramme

Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple « par exemple ») il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille . Cette modélisation correspond en fait à un modèle de Markov d'ordre où seules les dernières observations sont utilisées pour la prédiction de la lettre suivante. Ainsi un bigramme est un modèle de Markov d'ordre 2.

À titre d'exemple, le bi-gramme le plus fréquent de la langue française est « de », comme dans l'article « de », mais aussi comme dans les mots « demain », « monde » ou « moderne ». En traitement du langage naturel il est fréquent de parler de N-gramme pour désigner des séquences de mots et non de lettres.

Exemple

À partir du (court) corpus « par exemple », nous obtenons :

Pas d'historique (unigramme) :

  • p : 2 occurrences sur 10 lettres = 2/10 ;
  • e : 3 occurrences sur 10 lettres = 3/10 ;
  • x : 1 occurrence sur 10 lettres = 1/10 ;

... La somme des probabilités étant nécessairement égale à 1.

Historique de taille 1 (on considère la lettre et un successeur) :

  • p-a : 1 occurrence sur 9 couples = 1/9 ;
  • p-l : 1 occurrence sur 9 couples = 1/9 ;
  • p-e : 0 occurrence sur 9 couples = 0 ;

... La somme des probabilités étant toujours nécessairement égale à 1.

Nous obtenons des probabilités conditionnelles nous permettant de connaître, à partir d'une sous-séquence, la probabilité de la sous-séquence suivante. Dans notre exemple, est la probabilité d'apparition de l'élément a sachant que l'élément p est apparu.

Usage des N-grammes

Les N-grammes sont beaucoup utilisés en traitement automatique du langage naturel mais aussi en traitement du signal. Leur utilisation repose sur l'hypothèse simplificatrice que, étant donné une séquence de k éléments () la probabilité de l'apparition d'un élément en position i ne dépend que des n-1 éléments précédents.

On a donc .

Avec (cas du trigramme), on a .

La probabilité de la séquence :

est transformée en : (on notera les deux premiers termes conservés, il n'y a en effet pas d'élément en position 0 et -1 de la séquence. Ceci peut-être corrigé en introduisant des termes vides, mais ça n'a que peu d'importance).

Entraînement des N-grammes

Partant de cette hypothèse, il est alors possible d'apprendre les n-grammes à partir d'un corpus. Avec , il suffit de parcourir le corpus et de noter, pour chaque apparition d'un triplet d'élément (par exemple, pour chaque triplet de caractères ou de mots) le nombre d'apparitions de ce triplet, le nombre d'apparitions du couple en début de triplet et de diviser le premier par le second.

Sur un exemple simple, partant du corpus d'apprentissage « aabaacaab », nous avons les triplets suivants :

  • aab
  • aba
  • baa
  • aac
  • aca
  • caa
  • aab

Dénombrons les :

  • aab : 2 occurrences
  • aba : 1 occurrence
  • baa : 1 occurrence
  • aac : 1 occurrence
  • aca : 1 occurrence
  • caa : 1 occurrence

Ainsi que les couples en début de triplet :

  • aa : 3 occurrences
  • ab : 1 occurrence
  • ba : 1 occurrence
  • ac : 1 occurrence
  • ca : 1 occurrence

Nous obtenons les tri-grammes suivants :

  • ...


À partir de ce corpus, on déduit que, si le couple « aa » apparaît, alors la probabilité que l'élément suivant soit « b » est de 2/3, la probabilité que l'élément suivant soit « c » est de 1/3.

Une propriété triviale mais importante est . Ceci se généralise trivialement pour toute valeur de n.

Nous obtenons la chaîne de Markov équivalente :

Limite des N-grammes

Un premier problème se pose : certains triplets n'apparaissent pas dans le corpus d'apprentissage (leur probabilité est donc fixée à 0) mais risquent d'apparaître à l'utilisation. En effet, on sait qu'il est impossible de construire un corpus représentatif contenant, de façon justement distribuée (c'est-à-dire correspondant à la distribution réelle) l'ensemble des n-grammes d'un langage[réf. souhaitée] (par « langage », nous entendons ici une langue naturelle, mais par extension n'importe quel ensemble de séquences particulier que l'on voudrait soumettre à l'apprentissage par les n-grammes).

Pour pallier ce problème, les probabilités sont « lissées ». Le calcul du tri-gramme est approximé et devient :

avec , la probabilité de l'unigramme et la probabilité du bi-gramme.

Exploitation des N-grammes

Un exemple complet d'utilisation des N-grammes est présenté dans l'article Algorithme de Viterbi.

Voir aussi


Read other articles:

Universitas LampungJenisPerguruan Tinggi NegeriDidirikan23 September 1965Lembaga indukKementerian Pendidikan, Kebudayaan, Riset, dan TeknologiRektorProf. Dr. Ir. Lusmeilia Afriani, DEA., IPM. [1]Staf akademikPengajar:1.164 orang [2] (2012)Tenaga Administrasi: 673 orang [3] (2012)Jumlah mahasiswa36.903 orang [4] (2014)AlamatJl. Prof. Dr. Sumantri Brojonegoro No.1, Kota Bandar Lampung, Lampung, IndonesiaKampusSuburbanWarnaHijauNama julukanUnilaAfiliasiASAIHL (Ass...

 

Dit is een lijst van koningen der Belgen vanaf het jaar 1831 tot heden. Lijst van koningen der Belgen (1831-heden) Nr. Naam Regeringsperiode Echtgenote Opmerkingen Huis Saksen-Coburg en Gotha (1831-1934) 1 Leopold I(1790-1865) 21 juli 1831 - 9 december 1865 34 jaar en 142 dagen Louise Marie van Frankrijk Leopold I was de eerste koning der Belgen. Hiervoor kreeg Leopold het aanbod om koning te worden van het pas onafhankelijke Griekenland, maar dat weigerde hij. Zowel in binnen- als buitenland...

 

Punk yang sedang duduk-duduk Punks. Punk merupakan yang lahir di London, Inggris. Pada awalnya, kelompok selalu dikacaukan oleh golongan skinhead. Namun, sejak tahun 1980-an, saat punk merajalela di Amerika, golongan punk dan skinhead seolah-olah menyatu, karena mempunyai semangat yang tinggi. Namun, punk juga dapat berarti jenis aliran atau genre yang lahir pada awal tahun 1970-an. Punk juga bisa berarti ideologi hidup yang mencakup aspek sosial dan politik Gerakan anak muda yang diawali ole...

أولاد بن رقية تقسيم إداري البلد المغرب  الجهة مراكش آسفي الإقليم آسفي الدائرة كزولة الجماعة القروية أولاد سلمان المشيخة أولاد بركة السكان التعداد السكاني 346 نسمة (إحصاء 2004)   • عدد الأسر 63 معلومات أخرى التوقيت ت ع م±00:00 (توقيت قياسي)[1]،  وت ع م+01:00 (توقيت صيفي)[1]...

 

Protein-coding gene in the species Homo sapiens ORC6Available structuresPDBOrtholog search: PDBe RCSB List of PDB id codes3M03IdentifiersAliasesORC6, ORC6L, origin recognition complex subunit 6External IDsOMIM: 607213 MGI: 1929285 HomoloGene: 8635 GeneCards: ORC6 Gene location (Human)Chr.Chromosome 16 (human)[1]Band16q11.2Start46,689,643 bp[1]End46,698,394 bp[1]Gene location (Mouse)Chr.Chromosome 8 (mouse)[2]Band8|8 C3Start86,026,261 bp[2]End86,034...

 

Not to be confused with Maria Sadowska. Mariana Sadovska performing in Cologne, 2009 Mariana Sadovska (born 1972, Lviv, Ukraine) is a Ukrainian actress, singer, musician, recording artist, and composer, resident in Cologne. Biography Sadovska began her work with Les Kurbas Theater (Lviv, Ukraine) at Anatole Vasiliev's Festivals in St. Petersburg and Moscow. There, she was tapped for the Slavic Pilgrim Project by Jerzy Grotowski in Pontedera, Italy. Later that year, she was invited to join The...

Carex molesta Klasifikasi ilmiah Kerajaan: Plantae Divisi: Tracheophyta Kelas: Liliopsida Ordo: Poales Famili: Cyperaceae Genus: Carex Spesies: Carex molesta Nama binomial Carex molestaMack. Carex molesta adalah spesies tumbuhan seperti rumput yang tergolong ke dalam famili Cyperaceae. Spesies ini juga merupakan bagian dari ordo Poales. Spesies Carex molesta sendiri merupakan bagian dari genus Carex.[1] Nama ilmiah dari spesies ini pertama kali diterbitkan oleh Mack.. Referensi ^ Care...

 

River in the north-central United States For the river in Arkansas, see Little Missouri River (Arkansas). Little Missouri RiverFlowing through Theodore Roosevelt National ParkLittle Missouri watershedLocation of the mouth of the Little Missouri River in North DakotaLocationCountryUnited StatesStateWyoming, Montana, South Dakota, North DakotaPhysical characteristicsSourceFlatiron Butte • locationnear Oshoto, Crook County, Wyoming • coordinates44°32′25″...

 

2004 compilation album by Hitomi YaidaSingle CollectionCompilation album by Hitomi YaidaReleased28 July 2004GenreJ-popLabelToshiba EMI (TOCT-25412)Hitomi Yaida chronology Single Collection/Yaiko's Selection(2004) Single Collection(2004) Yaiko's Selection(2004) Single Collection is the first Greatest Hits-esque release by Hitomi Yaida, giving a selection of her singles released up to the time of issue. It was also issued as part of the Single collection/Yaiko's selection Box Set. Relea...

Norms, values, customs and political systems of the Western world For other uses, see Western culture (disambiguation). Leonardo da Vinci's Vitruvian Man, based on the correlations of ideal human proportions with geometry described by the ancient Roman architect Vitruvius in Book III of his treatise De architectura Plato, arguably the most influential figure in early Western philosophy, has influenced virtually all of subsequent Western and Middle Eastern philosophy and theology Western cultu...

 

Place in GreeceAno Pogoni Άνω ΠωγώνιAno PogoniLocation within the regional unit Coordinates: 40°1′N 20°34′E / 40.017°N 20.567°E / 40.017; 20.567CountryGreeceAdministrative regionEpirusRegional unitIoanninaMunicipalityPogoni • Municipal unit137.084 km2 (52.928 sq mi)Elevation650 m (2,130 ft)Population (2011)[1] • Municipal unit1,490 • Municipal unit density11/km2 (28/sq mi)Ti...

 

Untuk kegunaan lain, lihat Dilema (disambiguasi). DilemmaSingel oleh Nelly & Kelly Rowlanddari album Nellyville dan Simply DeepSisi-BKings HighwayDirilis25 Juni 2002FormatCDGenreR&B, hip hopDurasi4:49 (versi album)3:55 (Radio edit)LabelUniversal, ColumbiaPenciptaCornell Haynes Jr.Antoine Macon Kenneth Gamble Bunny Sigler[1]ProduserBAM & RyanKronologi singel Hot in Herre(2002) Dilemma Air Force Ones(2002) Separated (1999) Dilemma(2002) Stole(2002) Dilemma adalah lagu dari r...

Mike RamaWakil Walikota Kota CebuPetahanaMulai menjabat 30 Juni 2019PendahuluEdgardo LabellaMasa jabatan30 Juni 2001 – 30 Juni 2010PendahuluJoy YoungPenggantiEdgardo LabellaWalikota Kota CebuMasa jabatan30 Juni 2010 – 17 Mei 2016PendahuluTomas OsmeñaPenggantiMargarita OsmeñaAnggota Dewan Kota Cebu dari dapil IIMasa jabatan30 Juni 1992 – 30 Juni 2001 Informasi pribadiLahirMichael Lopez Rama28 Oktober 1954 (umur 69)Kota Cebu, FilipinaPartai politikBO-...

 

Harry Potter and theChamber of SecretsPoster film Harry Potter and The Chamber of SecretsSutradaraChris ColumbusProduser David Heyman Ditulis oleh [[Skenario:]][[Kategori:Film yang ditulis Skenario:]] Steve Kloves [[Novel:]][[Kategori:Film yang ditulis Novel:]] J. K. Rowling PemeranDaniel RadcliffeRupert GrintEmma WatsonRichard HarrisKenneth BranaghJason IsaacsChristian CoulsonRobbie ColtranePenata musikJohn WilliamsAdapting and conducting: William RossSinematograferRoger PrattPenyuntin...

 

Italian footballer and manager (born 1946) Fabio Capello Capello managing Russia in 2014Personal informationFull name Fabio Capello[1]Date of birth (1946-06-18) 18 June 1946 (age 77)Place of birth San Canzian d'Isonzo, ItalyHeight 1.77 m (5 ft 10 in)Position(s) MidfielderYouth career1962–1964 SPALSenior career*Years Team Apps (Gls)1964–1967 SPAL 49 (3)1967–1970 Roma 62 (11)1970–1976 Juventus 165 (27)1976–1980 A.C. Milan 65 (4)Total 341 (45)International c...

Stasiun Kediri PD35 Tampak muka Stasiun Kediri beserta pintu masuk, 2021LokasiJalan Stasiun KediriBalowerti, Kediri, Kediri, Jawa Timur 64121IndonesiaKetinggian+68 mOperatorKereta Api IndonesiaDaerah Operasi VII Madiun KAI CommuterKAI LogistikLetak dari pangkal km 186+866 lintas Bangil-Blitar-Kertosono km 49+522 lintas Jombang-Pare-Kediri[1] Jumlah peron3 (satu peron sisi yang agak tinggi dan dua peron pulau yang cukup tinggi)Jumlah jalur6 (jalur 1: sepur lurus)KonstruksiGaya arsitekt...

 

مؤسسة مدينة لندن التأسيس 1191  البلد المملكة المتحدة  الموقع الإلكتروني الموقع الرسمي  تعديل مصدري - تعديل   مؤسسة مدينة لندن (بالإنجليزية: City of London Corporation)‏ وتعرف رسمياً وقانونياً باسم العمدة والعامة والمواطنون في مدينة لندن (بالإنجليزية: Mayor and Commonalty and Citizens of the City o...

 

Vow

Promise or oath This article is about a promise. For other uses, see Vow (disambiguation). This article has multiple issues. Please help improve it or discuss these issues on the talk page. (Learn how and when to remove these template messages) This article needs additional citations for verification. Please help improve this article by adding citations to reliable sources. Unsourced material may be challenged and removed.Find sources: Vow – news · newspapers · bo...

National Football League rivalry San Francisco 49ers–Dallas Cowboys San Francisco 49ers Dallas Cowboys First meetingNovember 20, 1960 49ers 26, Cowboys 14Latest meetingOctober 8, 2023 49ers 42, Cowboys 10Next meetingTBD (no later than 2026 regular season)StatisticsMeetings total40All-time series49ers, 20–19–1Postseason resultsCowboys, 5–4 Most recent January 22, 202349ers 19, Cowboys 12Largest victoryCowboys, 59–14 (1980) 49ers, 42–10 (2023)Current win streak49ers, 3 (2022–prese...

 

Brazilian actress and model (born 1994) Gabi LopesBornGabriela Lopes Gabriel (1994-07-23) July 23, 1994 (age 29)São Paulo, São Paulo BrazilNationalityBrazilianOccupationsActressmodelYears active2003–present (actress)Websitegabilopes.com.br Gabriela Lopes Gabriel (born July 23, 1994, in São Paulo) is a Brazilian actress and model. She got famous nationally after her role in the 22nd season of TV series Malhação, at Rede Globo. Biography Gabi has been working as an actress for ...

 
Kembali kehalaman sebelumnya