Terminology mining, term extraction, term recognition, or glossary extraction, is a subtask of information extraction. The goal of terminology extraction is to automatically extract relevant terms from a given corpus. One of the first steps to model the knowledge domain of a virtual community is to collect a vocabulary of domain-relevant terms, constituting the linguistic surface manifestation of domain concepts. Several methods to automatically extract technical terms from domain-specific document warehouses have been described in the literature.

AttributesValues
type
label
  • Terminology extraction
  • Estrazione terminologica
  • Extractores de terminología
  • Extraction terminologique
comment
  • L'extraction terminologique est une application du traitement automatique du langage naturel qui consiste à extraire automatiquement une liste de termes à partir d'un corpus spécialisé. Les logiciels réalisant l'extraction terminologique sont appelés extracteurs de termes.
  • Los extractores de terminologíason herramientas que permiten la identificación y extracción de candidatos a términos de los textos explorados. Estas herramientas están abocadas a generar material para las bases terminológicas y que requieren del análisis y evaluación del usuario para la inclusión definitiva en la base de datos.
  • Terminology mining, term extraction, term recognition, or glossary extraction, is a subtask of information extraction. The goal of terminology extraction is to automatically extract relevant terms from a given corpus. One of the first steps to model the knowledge domain of a virtual community is to collect a vocabulary of domain-relevant terms, constituting the linguistic surface manifestation of domain concepts. Several methods to automatically extract technical terms from domain-specific document warehouses have been described in the literature.
  • L'estrazione terminologica è una sottocategoria dell'estrazione di informazioni che consiste nell'identificare (automaticamente) i termini rilevanti in un dato corpus. Scopo dell'estrazione terminologica è generare materiale utile per la creazione di un glossario terminologico o di un'ontologia, oppure di supporto per la traduzione umana e automatica. Una volta estrapolati, i potenziali termini di interesse vengono filtrati sulla base di ricorrenza, specificità e tasso di ambiguità. Questa operazione si realizza solitamente mediante programmi informatici dedicati (i cosiddetti estrattori terminologici).
owl:sameAs
Subject
is primary topic of
Link from a Wikipage to an external page
έχει περίληψη
  • L'extraction terminologique est une application du traitement automatique du langage naturel qui consiste à extraire automatiquement une liste de termes à partir d'un corpus spécialisé. Les logiciels réalisant l'extraction terminologique sont appelés extracteurs de termes.
  • Terminology mining, term extraction, term recognition, or glossary extraction, is a subtask of information extraction. The goal of terminology extraction is to automatically extract relevant terms from a given corpus. In the semantic web era, a growing number of communities and networked enterprises started to access and interoperate through the internet. Modeling these communities and their information needs is important for several web applications, like topic-driven web crawlers, web services, recommender systems, etc. The development of terminology extraction is essential to the language industry. One of the first steps to model the knowledge domain of a virtual community is to collect a vocabulary of domain-relevant terms, constituting the linguistic surface manifestation of domain concepts. Several methods to automatically extract technical terms from domain-specific document warehouses have been described in the literature. Typically, approaches to automatic term extraction make use of linguistic processors (part of speech tagging, phrase chunking) to extract terminological candidates, i.e. syntactically plausible terminological noun phrases, NPs (e.g. compounds "credit card", adjective-NPs "local tourist information office", and prepositional-NPs "board of directors" - in English, the first two constructs are the most frequent). Terminological entries are then filtered from the candidate list using statistical and machine learning methods. Once filtered, because of their low ambiguity and high specificity, these terms are particularly useful for conceptualizing a knowledge domain or for supporting the creation of a domain ontology or a terminology base. Furthermore, terminology extraction is a very useful starting point for semantic similarity, knowledge management, human translation and machine translation, etc.
  • L'estrazione terminologica è una sottocategoria dell'estrazione di informazioni che consiste nell'identificare (automaticamente) i termini rilevanti in un dato corpus. Scopo dell'estrazione terminologica è generare materiale utile per la creazione di un glossario terminologico o di un'ontologia, oppure di supporto per la traduzione umana e automatica. Una volta estrapolati, i potenziali termini di interesse vengono filtrati sulla base di ricorrenza, specificità e tasso di ambiguità. Questa operazione si realizza solitamente mediante programmi informatici dedicati (i cosiddetti estrattori terminologici). L'estrazione può essere monolingue o bilingue. L'estrazione monolingue è finalizzata all'identificazione di termini candidati, mentre l'estrazione bilingue si basa sull'analisi di testi di partenza e relative traduzioni per identificare potenziali termini e i loro traducenti. Esistono tool di estrazione terminologica di approccio linguistico, più adatti a lavorare su un'unica lingua dato che cercano combinazioni di parole che corrispondono a determinate strutture nel discorso. I tool dall'approccio più statistico identificano invece le sequenze ripetute di segmenti lessicali, con il vantaggio dell'indipendenza rispetto alla lingua considerata. Trattandosi di un processo che sfrutta programmi automatici l'intervento umano nell'estrazione terminologica è necessario per escludere errori, imprecisioni e parole non rilevanti. In questo senso, l'estrazione di termini può quindi definirsi un processo di selezione assistito o semi-automatico. Ulrich Heid, esperto di lessicografia computazionale, docente presso le Università di Stoccarda e Hildesheim e membro del gruppo di ricerca IMS Corpus/Lexicon Research Group, sostiene che l'estrazione terminologica automatica debba seguire tre principi: 1. * Un sistema di estrazione deve sempre permettere la correzione manuale e quindi essere semi-automatico. 2. * L'estrazione di termini candidati sarà sempre accompagnata da un certo rumore, cioè dalla presenza di termini indesiderati, la cui riduzione deve quindi essere l'obiettivo di chi sviluppa tali sistemi. 3. * Un sistema di estrazione terminologica dovrebbe per contro ridurre al minimo il numero di candidati buoni che non vengono estratti, cioè il cosiddetto silenzio. Sempre secondo il professor Heid, l'estrazione si svolge in due fasi: l'identificazione dei termini candidati e il successivo filtraggio per ridurre rumore e silenzio. Per l'estrazione semi-automatica di termini da corpora elettronici di riferimento si possono utilizzare vari programmi. Il più conosciuto è il Multiterm di Trados, creato nel 1992.Altri programmi utili sono WordSmith Tools, TextStat, AntConc e strumenti sul web come WebCorp10.
  • Los extractores de terminologíason herramientas que permiten la identificación y extracción de candidatos a términos de los textos explorados. Estas herramientas están abocadas a generar material para las bases terminológicas y que requieren del análisis y evaluación del usuario para la inclusión definitiva en la base de datos. Este tipo de herramientas son muy útiles en el entorno de la gestión de la información y del conocimiento —contribuyen a la extracción de palabras claves como posibles candidatos a unidades de indización—, así como en el ámbito de la traducción especializada —poder extraer automáticamente los términos de un texto contribuye a elaborar glosarios específicos—. Sin embargo, la automatización de la extracción de los términos se enfrenta a problemas consustanciales a la propia naturaleza lingüística de los términos, así como a su variación denominativa. Estos problemas estriban ante todo en identificar y separar los términos de los no términos, tanto simples como compuestos. Para que un proceso sea automatizable, debe existir un diseño conceptual que represente las fases y estrategias que den la solución a un problema. De esta manera se podrá hacer legible por la máquina. La formalización conceptual puede ser de tipo lingüístico, por ejemplo, mediante el etiquetado previo de los textos para dotarlos de conocimiento morfológico. Asimismo se puede dotar de conocimiento sintáctico etiquetando los textos para basar una extracción en algoritmos formales de composición gramatical. Esta aplicación, sin embargo, no resuelve los problemas de delimitación de los sintagmas de significación, ya bien sean términos compuestos, ya bien simples. Las herramientas de extracción de términos integradas en los sistemas de traducción asistida por ordenador son también reflejo de las limitaciones de su aplicación. En este sentido, los extractores fraccionan el problema asistiendo a la solución sólo semiautomática de los vaciados dependiendo siempre de las memorias de traducción. y de la intervención humana.
wasDerivedFrom
Wikipage page ID
  • 8722168(xsd:integer)
Wikipage revision ID
  • 740547698(xsd:integer)
http://purl.org/li...ics/gold/hypernym
is seeAlso of
is owl:sameAs of
is Subject of
is topic of
is Wikipage redirect of
Alternative Linked Data Views: Sponger | iSPARQL | ODE     Raw Data in: CXML | CSV | RDF ( N-Triples N3/Turtle JSON XML ) | OData ( Atom JSON )    About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data] This material is Open Knowledge Creative Commons License Valid XHTML + RDFa
This work is licensed under a Creative Commons Attribution-Share Alike 3.0 Unported License.
OpenLink Virtuoso version 06.01.3127, on Linux (x86_64-pc-linux-gnu), Standard Edition
Copyright © 2009-2011 OpenLink Software