TreeBank
TreeBank (denominado también como Corpus parseado o más ampliamente Penn Treebank) es un corpus lingüístico en el que cada frase ha sido parseada, es decir anotada con su estructura sintáctica. La estructura sintáctica se ha representado generalmente como una estructura arbórea que recibe la denominación de TreeBank.[1] En la mayoría de los casos se ha empleado etiquetado gramatical. La denominación alternativa corpus parseado se emplea a menudo con el Treebank: realizando énfasis en la primacía de las frases en lugar de las estructuras arbóreas. Los corpus Treebanks se pueden crear a mano mediante un grupo de lingüistas que anotan cada frase con una estructura sintáctica, o mediante procedimientos semiautomáticos, donde un analizador sintáctico (parser) asigna la estructura bajo la supervisión de un lingüista. En la práctica, el completo control del parseado del lenguaje natural con el objeto de establecer diferentes corpus es una labor intensiva que dedica el tiempo de varios equipos de lingüistas, pudiendo alcanzar varios años.
Representación
Por ejemplo, el análisis sintáctico de la frase Víctor ama a María, puede ser representado de diversas formas, por ejemplo con un sistema anidado de paréntesis en el texto, como este (siguiendo la notación del Penn Treebank):
(S (NP (NNP Víctor))
(VP (VPZ ama)
(PP (TO a)
(NP (NNP María))))
(. .))
Esta representación es la más habitual y antigua, aunque desde comienzos del siglo XXI se han venido empleando anotaciones cada vez más complejas, siendo una de las posibles respresentaciones en XML.[2] En ella se puede ver como cada palabra se anota con su función sintáctica: nombre, verbo, adjetivo.
Usos
Una de las aplicaciones directas de los treebanks es el aprendizaje de gramáticas (inducción gramatical).[3] En analizadores fragmentales de texto (chunkers) capaces de separar las diversas frases de un texto. Estos analizadores se denominan a veces como "segmentación sintáctica básica".
Véase también
Referencias
- ↑ A. Abeillé, (2003), Treebanks: Building and Using Parsed Corpora, Kuwler Academic Publisher
- ↑ Ruslan Mitkov, (2004),The Oxford Handbook of Computational Linguistics, Oxford University Press
- ↑ Amparo Alcina,Esperanza Valero, (2009), Terminología y Sociedad del Conocimiento, Peter Lang AG
Enlaces externos
- Linguistic Data Consortium - Disemina datos lingüísticos desde la década de los años ochenta. En una sección muestra el trebank online (inglés)
- [UAM Treebank of Spanish] - Laboratorio de Lingüística Informática
- RST Spanish Treebank
Content Disclaimer
Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.
- The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
- There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
- It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
- Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
- Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.