About: N-gram

Description
Metadata
Settings
- owl:sameAs
- Inference Rule:

About: N-gram

An Entity of Type : Thing, within Data Space : lodserver.iula.upf.edu
Start faceted browsing from this Type

In the fields of computational linguistics and probability, an n-gram is a contiguous sequence of n items from a given sequence of text or speech. The items can be phonemes, syllables, letters, words or base pairs according to the application. The n-grams typically are collected from a text or speech corpus. When the items are words, n-grams may also be called shingles.

Attributes	Values
type	owl:Thing yago:YagoPermanentlyLocatedEntity yago:Abstraction100002137 yago:PsychologicalFeature100023100 yago:Event100029378 yago:Act100030358 yago:Activity100407535 yago:Algorithm105847438 yago:Rule105846932 yago:Procedure101023820 yago:Operation100955060 yago:Attack100972621 yago:WikicatAlgorithms yago:WikicatCryptographicAttacks
label	N-Gramm N元语法 N-gram N-gramme N-грамм N-grama N-gram N-gramma
comment	N-Gramme sind das Ergebnis der Zerlegung eines Textes in Fragmente. Der Text wird dabei zerlegt, und jeweils aufeinanderfolgende Fragmente werden als N-Gramm zusammengefasst. Die Fragmente können Buchstaben, Phoneme, Wörter und Ähnliches sein. N-Gramme finden Anwendung in der Kryptologie und Linguistik, speziell auch in der Computerlinguistik, Computerforensik und Quantitativen Linguistik. Einzelne Wörter, ganze Sätze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N-Gramme zerlegt. Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple « par exemple ») il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille . Cette modélisation correspond en fait à un modèle de Markov d'ordre où seules les N-грамма — последовательность из n элементов. С семантической точки зрения, это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N-грамма как ряд слов, устойчивые словосочетания называют коллокацией. Последовательность из двух последовательных элементов часто называют биграмма, последовательность из трёх элементов называется триграмма. Не менее четырёх и выше элементов обозначаются как N-грамма, N заменяется на количество последовательных элементов. n元语法（英语：n-gram）指文本中连续出现的n个语词。n元语法模型是基于(n-1)阶马尔可夫链的一种概率语言模型，通过n个语词出现的概率来推断语句的结构。这一模型被广泛应用于概率论、通信理论、计算语言学（如基于统计的自然语言处理）、计算生物学（如序列分析）、数据压缩等领域。当n分别为1、2、3时，又分别称为一元语法（unigram）、二元语法（bigram）与三元语法（trigram）。 Un n-gramma è una sottosequenza di n elementi di una data sequenza. Secondo l'applicazione, gli elementi in questione possono essere fonemi, sillabe, lettere, parole, ecc. Un n-gramma è di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "digramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1. Un n-grama es una subsecuencia de n elementos de una secuencia dada. El estudio de los n-gramas es interesante en diversas áreas del conocimiento. Por ejemplo, es usado en el estudio del lenguaje natural, en el estudio de las secuencias de genes y en el estudio de las secuencias de aminoácidos. Se puede usar gramas para casi todos los ámbitos. Por ejemplo, se han usado n-gramas para extraer características comunes de grandes conjuntos de imágenes de la Tierra tomadas desde satélite, y para determinar a qué parte de la Tierra pertenece una imagen dada. In the fields of computational linguistics and probability, an n-gram is a contiguous sequence of n items from a given sequence of text or speech. The items can be phonemes, syllables, letters, words or base pairs according to the application. The n-grams typically are collected from a text or speech corpus. When the items are words, n-grams may also be called shingles. N-gram – model językowy stosowany w rozpoznawaniu mowy. N-gramy opierają się na statystykach i służą do przewidywania kolejnego elementu sekwencji. Stosowane są głównie do słów, jak również na przykład do fonemów (a także do zastosowań niezwiązanych z lingwistyką, jak np. biologia obliczeniowa). Głównymi zaletami n-gramów są prostota i skalowalność. Poprzez zmianę n można tym samym schematem otrzymywać zarówno modele nie wymagające wielu danych treningowych, ale nie dające dużej mocy predykcyjnej, jak i modele wymagające wielu danych ale oferujące duże możliwości predykcyjne.
owl:differentFrom	dbpedia:Engram_(disambiguation)
owl:sameAs	dbpedia:N-gram http://yago-knowledge.org/resource/N-gram http://fr.dbpedia.org/resource/Ngram_Viewer dbpedia:N-gram_model http://eu.dbpedia.org/resource/N-grama http://www.wikidata.org/entity/Q94489 http://es.dbpedia.org/resource/N-grama fbase:m.03wv8s http://it.dbpedia.org/resource/N-gramma http://cs.dbpedia.org/resource/N-gram http://de.dbpedia.org/resource/N-Gramm http://wikidata.dbpedia.org/resource/Q94489 http://pl.dbpedia.org/resource/N-gram http://fr.dbpedia.org/resource/N-gramme dbpedia:Ngram dbpedia:Unigram dbpedia:Q-gram dbpedia:N-grams dbpedia:Skip-gram dbpedia:Skip-grams dbpedia:Skipgram dbpedia:Ngrams dbpedia:Culturomics dbpedia:Google_Ngram dbpedia:Ngram_Viewer dbpedia:Ngram_viewer dbpedia:Google_ngrams dbpedia:Google_Ngram_Viewer dbpedia:Google_Books_Ngram_Viewer http://ca.dbpedia.org/resource/N-grama http://dbpedialite.org/things/986182#id http://dbpedialite.org/things/1256642#id http://dbpedialite.org/things/7871257#id http://dbpedialite.org/things/9809226#id http://dbpedialite.org/things/13699845#id http://dbpedialite.org/things/33031817#id http://fi.dbpedia.org/resource/N-grammi http://la.dbpedia.org/resource/Culturomia fbase:en.n-gram fbase:m.0h52wqj fbase:m.0j_2_1b fbase:guid.9202a8c04000641f80000000003de918 http://ru.dbpedia.org/resource/N-\u0433\u0440\u0430\u043C\u043C http://sk.dbpedia.org/resource/N-gram http://uk.dbpedia.org/resource/\u041A\u0443\u043B\u044C\u0442\u0443\u0440\u043E\u043C\u0456\u043A\u0430 http://www.wikidata.org/entity/Q1241920 http://www.wikidata.org/entity/Q3339343
Subject	category:Natural_language_processing category:Computational_linguistics category:Language_modeling category:Corpus_linguistics category:Speech_recognition category:Probabilistic_models
is primary topic of	http://en.wikipedia.org/wiki/N-gram
Link from a Wikipage to an external page	http://data.statoperator.com/ https://www.researchgate.net/publication/262176888_Contextual_Language_Models_For_Ranking_Answers_To_Natural_Language_Definition_Questions http://www.uvic.ca/engineering/ece/isot/assets/docs/Authorship_Verification_for_Short_Messages_using_Stylometry.pdf http://www.ngrams.info/ http://googleresearch.blogspot.com/2006/08/all-our-n-gram-are-belong-to-you.html http://ngrams.googlelabs.com/ http://research.microsoft.com/web-ngram http://www.cs.columbia.edu/~mcollins/courses/nlp2011/notes/lm.pdf http://www.w3.org/TR/ngram-spec/ http://www.peachnote.com/
έχει περίληψη	N-Gramme sind das Ergebnis der Zerlegung eines Textes in Fragmente. Der Text wird dabei zerlegt, und jeweils aufeinanderfolgende Fragmente werden als N-Gramm zusammengefasst. Die Fragmente können Buchstaben, Phoneme, Wörter und Ähnliches sein. N-Gramme finden Anwendung in der Kryptologie und Linguistik, speziell auch in der Computerlinguistik, Computerforensik und Quantitativen Linguistik. Einzelne Wörter, ganze Sätze oder komplette Texte werden hierbei zur Analyse oder statistischen Auswertung in N-Gramme zerlegt. N-грамма — последовательность из n элементов. С семантической точки зрения, это может быть последовательность звуков, слогов, слов или букв. На практике чаще встречается N-грамма как ряд слов, устойчивые словосочетания называют коллокацией. Последовательность из двух последовательных элементов часто называют биграмма, последовательность из трёх элементов называется триграмма. Не менее четырёх и выше элементов обозначаются как N-грамма, N заменяется на количество последовательных элементов. n元语法（英语：n-gram）指文本中连续出现的n个语词。n元语法模型是基于(n-1)阶马尔可夫链的一种概率语言模型，通过n个语词出现的概率来推断语句的结构。这一模型被广泛应用于概率论、通信理论、计算语言学（如基于统计的自然语言处理）、计算生物学（如序列分析）、数据压缩等领域。当n分别为1、2、3时，又分别称为一元语法（unigram）、二元语法（bigram）与三元语法（trigram）。 Un n-gramma è una sottosequenza di n elementi di una data sequenza. Secondo l'applicazione, gli elementi in questione possono essere fonemi, sillabe, lettere, parole, ecc. Un n-gramma è di lunghezza 1 è chiamato "unigramma", di lunghezza 2 "digramma", di lunghezza 3 "trigramma" e, da lunghezza 4 in poi, "n-gramma". Alcuni modelli del linguaggio costruiti a partire da n-grammi sono catene di Markov di ordine n-1. Un n-gramme est une sous-séquence de n éléments construite à partir d'une séquence donnée. L'idée semble provenir des travaux de Claude Shannon en théorie de l'information. Son idée était que, à partir d'une séquence de lettres donnée (par exemple « par exemple ») il est possible d'obtenir la fonction de vraisemblance de l'apparition de la lettre suivante. À partir d'un corpus d'apprentissage, il est facile de construire une distribution de probabilité pour la prochaine lettre avec un historique de taille . Cette modélisation correspond en fait à un modèle de Markov d'ordre où seules les dernières observations sont utilisées pour la prédiction de la lettre suivante. Ainsi un bigramme est un modèle de Markov d'ordre 2. À titre d'exemple, le bi-gramme le plus fréquent de la langue française est « de », comme dans l'article « de », mais aussi comme dans les mots « demain », « monde » ou « moderne ». En traitement du langage naturel il est fréquent de parler de N-gramme pour désigner des séquences de mots et non de lettres.

This work is licensed under a Creative Commons Attribution-Share Alike 3.0 Unported License.
OpenLink Virtuoso version 06.01.3127, on Linux (x86_64-pc-linux-gnu), Standard Edition
Copyright © 2009-2011 OpenLink Software