About: N-gram

Description
Metadata
Settings
- owl:sameAs
- Inference Rule:

About: N-gram

An Entity of Type : unknown, within Data Space : lodserver.iula.upf.edu
Start faceted browsing from this Type

In the fields of computational linguistics and probability, an n-gram is a contiguous sequence of n items from a given sequence of text or speech. The items can be phonemes, syllables, letters, words or base pairs according to the application. The n-grams typically are collected from a text or speech corpus.An n-gram of size 1 is referred to as a "unigram"; size 2 is a "bigram" (or, less commonly, a "digram"); size 3 is a "trigram".

Attributes	Values
label	N-Gramm N-gram N-gramme N-грамм N-grama N-gram N-gramma N-grama N-gram N-grama
comment	Un n-gramma è una sottosequenza di n elementi di una data sequenza. Secondo l'applicazione, gli elementi in questione possono essere fonemi, sillabe, lettere, parole, ecc. Un n-gramma è di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "digramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1. N-gram je definován jako sled n po sobě jdoucích položek z dané posloupnosti. Ze sémantického pohledu může být tato posloupnost buď posloupností slov nebo písmen. V praxi se častěji vyskytují n-gramy jako sled slov. Sled dvou po sobě jdoucích slov bývá často označován jako bigram, pro sled tří položek je zažitý pojem trigram. Od čtyř a výše se používá označení n-gram, kde n je nahrazeno počtem za sebou jdoucích elementů. N-gram - model językowy stosowany w rozpoznawaniu mowy . N-gramy opierają się na statystykach i służą do przewidywania kolejnego elementu sekwencji. Stosowane są głównie do słów, jak również na przykład do fonemów (a także do zastosowań niezwiązanych z lingwistyką, jak np. biologia obliczeniowa). Zastosowanie n-gramów wymaga zgromadzenia odpowiednio dużego zasobu danych statystycznych - korpusu. N-grama bat sekuentzia baten barne dagoen eta n elementuk osatutako azpi-sekuentzia da. N-gramak lengoaia naturalen prozesamendu estatistikoan eta sekuentzia genetikoen analisian erabili ohi dira. Donada una seqüència, anomenem n-grama a una subseqüència de n elements. Els elements poden ser tant lletres com paraules. S'utilitzen en diverses tasques de la traducció automàtica estadística, i també en altres camps de la investigació científica com l'anàlisi de seqüències genètiques.Anomenem unigrama al n-grama quan n=1, bigrama amb n=2, trigrama amb n=3, etc. In the fields of computational linguistics and probability, an n-gram is a contiguous sequence of n items from a given sequence of text or speech. The items can be phonemes, syllables, letters, words or base pairs according to the application. The n-grams typically are collected from a text or speech corpus.An n-gram of size 1 is referred to as a "unigram"; size 2 is a "bigram" (or, less commonly, a "digram"); size 3 is a "trigram". N-грамма — последовательность из n элементов. С семантической точки зрения, это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N-грамма как ряд слов. Последовательность из двух последовательных элементов часто называют биграмма, последовательность из трех элементов называется триграмма. Не менее четырех и выше элементов обозначаются как N-грамма, N заменяется на количество последовательных элементов. Un n-grama es una subsecuencia de n elementos de una secuencia dada. El estudio de los n-gramas es interesante en diversas áreas del conocimiento. Por ejemplo, es usado en el estudio del lenguaje natural, en el estudio de las secuencias de genes y en el estudio de las secuencias de aminoácidos. La forma en la que extraemos los gramas se tiene que adaptar al ámbito que estamos estudiando y al objetivo que tenemos en mente.
owl:sameAs	dbpedia:N-gram http://yago-knowledge.org/resource/N-gram http://fr.dbpedia.org/resource/Ngram_Viewer dbpedia:N-gram_model http://eu.dbpedia.org/resource/N-grama http://www.wikidata.org/entity/Q94489 http://es.dbpedia.org/resource/N-grama fbase:m.03wv8s http://it.dbpedia.org/resource/N-gramma http://cs.dbpedia.org/resource/N-gram http://de.dbpedia.org/resource/N-Gramm http://pl.dbpedia.org/resource/N-gram http://fr.dbpedia.org/resource/N-gramme dbpedia:Ngram dbpedia:Unigram dbpedia:Q-gram dbpedia:N-grams dbpedia:Skip-gram dbpedia:Skip-grams dbpedia:Skipgram dbpedia:Ngrams dbpedia:Culturomics dbpedia:Google_Ngram dbpedia:Ngram_Viewer dbpedia:Ngram_viewer dbpedia:Google_ngrams dbpedia:Google_Ngram_Viewer dbpedia:Google_Books_Ngram_Viewer http://ca.dbpedia.org/resource/N-grama http://dbpedialite.org/things/986182#id http://dbpedialite.org/things/1256642#id http://dbpedialite.org/things/7871257#id http://dbpedialite.org/things/9809226#id http://dbpedialite.org/things/13699845#id http://dbpedialite.org/things/33031817#id http://fi.dbpedia.org/resource/N-grammi http://la.dbpedia.org/resource/Culturomia fbase:en.n-gram fbase:m.0h52wqj fbase:m.0j_2_1b fbase:guid.9202a8c04000641f80000000003de918 http://ru.dbpedia.org/resource/N-\u0433\u0440\u0430\u043C\u043C http://sk.dbpedia.org/resource/N-gram http://uk.dbpedia.org/resource/\u041A\u0443\u043B\u044C\u0442\u0443\u0440\u043E\u043C\u0456\u043A\u0430 http://www.wikidata.org/entity/Q1241920 http://www.wikidata.org/entity/Q3339343 http://ru.dbpedia.org/resource/N-Ð³ÑÐ°Ð¼Ð¼
Subject	http://fr.dbpedia.org/resource/CatÃ©gorie:Traitement_automatique_du_langage_naturel http://fr.dbpedia.org/resource/CatÃ©gorie:ThÃ©orie_de_l'information
is primary topic of	http://fr.wikipedia.org/wiki/N-gramme
depiction
έχει περίληψη	Un n-gramma è una sottosequenza di n elementi di una data sequenza. Secondo l'applicazione, gli elementi in questione possono essere fonemi, sillabe, lettere, parole, ecc. Un n-gramma è di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "digramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1. N-грамма — последовательность из n элементов. С семантической точки зрения, это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N-грамма как ряд слов. Последовательность из двух последовательных элементов часто называют биграмма, последовательность из трех элементов называется триграмма. Не менее четырех и выше элементов обозначаются как N-грамма, N заменяется на количество последовательных элементов. In the fields of computational linguistics and probability, an n-gram is a contiguous sequence of n items from a given sequence of text or speech. The items can be phonemes, syllables, letters, words or base pairs according to the application. The n-grams typically are collected from a text or speech corpus.An n-gram of size 1 is referred to as a "unigram"; size 2 is a "bigram" (or, less commonly, a "digram"); size 3 is a "trigram". Larger sizes are sometimes referred to by the value of n, e.g., "four-gram", "five-gram", and so on. N-gram - model językowy stosowany w rozpoznawaniu mowy . N-gramy opierają się na statystykach i służą do przewidywania kolejnego elementu sekwencji. Stosowane są głównie do słów, jak również na przykład do fonemów (a także do zastosowań niezwiązanych z lingwistyką, jak np. biologia obliczeniowa). Zastosowanie n-gramów wymaga zgromadzenia odpowiednio dużego zasobu danych statystycznych - korpusu. Utworzenie modelu n-gramowego zaczyna się od zliczania wystąpień sekwencji o ustalonej długości n w istniejących zasobach językowych. Zwykle analizuje się całe teksty i zlicza wszystkie pojedyncze wystąpienia (1-gramy, unigramy), dwójki (2-gramy, bigramy) i trójki (3-gramy, trigramy). Aby uzyskać 4-gramy słów potrzebnych jest bardzo dużo danych językowych, co szczególnie dla języka polskiego jest trudne do zrealizowania.Po przeanalizowaniu odpowiednio dużej ilości tekstu zamienia się liczbę wystąpień na prawdopodobieństwa poprzez normalizację. Umożliwia to predykcje kolejnego elementu na podstawie sekwencji n dotychczasowych. Dla języka polskiego przeanalizowanie tekstów zawierających 300 000 000 słów daje dobry model 1-gramowy i satysfakcjonujący 2-gramowy. W celu utworzenia wiarygodnego modelu 3-gramowego potrzebne są dużo większe zasoby . Duża ilość przeanalizowanego tekstu podnosi jakość modelu, aczkolwiek istnieją także metody umożliwiające ulepszenie n-gramowych modeli bez dodatkowych danych, w oparciu o wygładzanie zebranych statystyk.Głównymi zaletami n-gramów są prostota i możliwość skalowalności. Poprzez zmianę n można tym samym schematem otrzymywać zarówno modele nie wymagające wielu danych treningowych, ale nie dające dużej mocy predykcyjnej, jak i modele wymagające wielu danych ale oferujące duże możliwości predykcyjne. Donada una seqüència, anomenem n-grama a una subseqüència de n elements. Els elements poden ser tant lletres com paraules. S'utilitzen en diverses tasques de la traducció automàtica estadística, i també en altres camps de la investigació científica com l'anàlisi de seqüències genètiques.Anomenem unigrama al n-grama quan n=1, bigrama amb n=2, trigrama amb n=3, etc. Els models de n-grames també es coneixen com a "Models de Markov no-ocults", ja que es coneixen les probabilitats de transició entre els diferents estats. N-gram je definován jako sled n po sobě jdoucích položek z dané posloupnosti. Ze sémantického pohledu může být tato posloupnost buď posloupností slov nebo písmen. V praxi se častěji vyskytují n-gramy jako sled slov. Sled dvou po sobě jdoucích slov bývá často označován jako bigram, pro sled tří položek je zažitý pojem trigram. Od čtyř a výše se používá označení n-gram, kde n je nahrazeno počtem za sebou jdoucích elementů. Při řešení úloh z oblasti počítačového zpracování přirozeného jazyka se na reprezentaci textu využívají ve většině případů slova nebo n-gramy slov. Un n-grama es una subsecuencia de n elementos de una secuencia dada. El estudio de los n-gramas es interesante en diversas áreas del conocimiento. Por ejemplo, es usado en el estudio del lenguaje natural, en el estudio de las secuencias de genes y en el estudio de las secuencias de aminoácidos. La forma en la que extraemos los gramas se tiene que adaptar al ámbito que estamos estudiando y al objetivo que tenemos en mente. Por ejemplo en el estudio del lenguaje natural podríamos construir los n-gramas en base a distintos tipos de elementos como por ejemplo fonemas, sílabas, letras, palabras. Algunos sistemas procesan las cadenas de texto eliminando los espacios. Otros no. En casi todos los casos, los signos de puntuación se eliminan durante el preproceso.Se puede usar gramas para casi todos los ámbitos. Por ejemplo, se han usado n-gramas para extraer características comunes de grandes conjuntos de imágenes de la Tierra tomadas desde satélite, y para determinar a qué parte de la Tierra pertenece una imagen dada.Para ciertos valores de n los n-gramas tienen nombres especiales. Por ejemplo: Los 1-gramas también se llaman unigramas. Los 2-gramas también se llaman bigramas o digramas. Los 3-gramas también se llaman trigramas. N-grama bat sekuentzia baten barne dagoen eta n elementuk osatutako azpi-sekuentzia da. N-gramak lengoaia naturalen prozesamendu estatistikoan eta sekuentzia genetikoen analisian erabili ohi dira. Elementuok mota ezberdinetakoak izan daitezke: letrak edo hitzak, esate baterako.1 neurriko n-gramei unigrama deritze; 2 neurrikoei bigrama; 3 neurrikoei trigrama; eta 4tik gorakoei n-grama edo (n-1) ordenako Markoven eredu deitzen zaie, n hori zenbakiagatik ordeztu daitekeelarik (4-grama, 5-grama,...).
wasDerivedFrom	http://fr.wikipedia.org/wiki/N-gramme?oldid=106313107
Wikipage page ID	864840(xsd:integer)
Wikipage revision ID	106313107(xsd:integer)
thumbnail	http://commons.wikimedia.org/wiki/Special:FilePath/Chaine-markov-trigramme.png?width=300
Link from a Wikipage to another Wikipage	http://fr.dbpedia.org/resource/Trigramme http://fr.dbpedia.org/resource/Traitement_automatique_du_langage_naturel http://fr.dbpedia.org/resource/Corpus http://fr.dbpedia.org/resource/ChaÃ®ne_de_Markov http://fr.dbpedia.org/resource/ModÃ¨le_de_Markov_cachÃ© http://fr.dbpedia.org/resource/ThÃ©orie_de_l'information http://fr.dbpedia.org/resource/Claude_Shannon http://fr.dbpedia.org/resource/Digramme http://fr.dbpedia.org/resource/Traitement_du_signal http://fr.dbpedia.org/resource/Ngram_Viewer http://fr.dbpedia.org/resource/CatÃ©gorie:Traitement_automatique_du_langage_naturel http://fr.dbpedia.org/resource/Algorithme_de_Viterbi http://fr.dbpedia.org/resource/CatÃ©gorie:ThÃ©orie_de_l'information
http://fr.dbpedia....iPageUsesTemplate	http://fr.dbpedia.org/resource/ModÃ¨le:Portail http://fr.dbpedia.org/resource/ModÃ¨le:Ã_sourcer http://fr.dbpedia.org/resource/ModÃ¨le:Ã_dÃ©sacadÃ©miser
page length (characters) of wiki page	6167(xsd:integer)
dbpedia-owl:wikiPageOutDegree	18(xsd:integer)

This work is licensed under a Creative Commons Attribution-Share Alike 3.0 Unported License.
OpenLink Virtuoso version 06.01.3127, on Linux (x86_64-pc-linux-gnu), Standard Edition
Copyright © 2009-2011 OpenLink Software