Word embedding
Word embedding o encaje léxico es el nombre de un conjunto de modelos de lenguaje y técnicas de aprendizaje en procesamiento del lenguaje natural (PLN) en donde las palabras o frases del lenguaje natural son representadas como vectores de números reales. Conceptualmente implica el encaje matemático de un espacio con una dimensión por palabra a un espacio vectorial continuo con menos dimensiones.
Algunos de los métodos para generar este mapeo o representación son las redes neuronales; la reducción de dimensionalidad con matrices de co-ocurrencia de palabras; los modelos probabilísticos, y la representación explícita en términos del contexto en el cual estas palabras figuran.[1][2][3][4][5][6]
El Word y phrase embeddings (para palabras y frases respectivamente), utilizados de forma subyacente como forma de representación, demostraron aumentar el rendimiento de tareas en el procesamiento del lenguaje natural (NLP) como en el análisis sintáctico[7] y análisis de sentimiento.[8]
Desarrollo de la técnica
En lingüística la técnica de word embeddings fue discutida en el área de investigación de semántica distribucional. Apunta para cuantificar y categorizar las semejanzas semánticas entre elementos lingüísticos basándose en sus propiedades distribucionales en muestras grandes de dato de lengua. La idea subyacente que "una palabra está caracterizada por la compañía que mantiene" estuvo popularizado por J. R. Firth.[9]
Hay muchas ramas y muchos grupos de desarrollo trabajando en este tema. En 2013, un equipo en Google dirigido por Tomas Mikolov creó word2vec, un paquete de herramientas el cual puede entrenar un modelo de espacio vectorial más rápidamente que las aproximaciones anteriores.[10] La mayoría de las nuevas técnicas utilizan una arquitectura de red neuronal en vez de los modelos más tradicionales como n-gram y aprendizaje no supervisado.[11]
Software
Entre el software para entrenar y utilizar word embedding se halla word2vec, GloVe de Stanford, Gensim,[12] Indra[13] y Deeplearning4j.[14] Tanto el análisis de Componente principal (PCA en inglés) como T-Distributed Stochastic Neighbour Embedding (t-SNE) se utilizan para reducir la dimensionalidad del espacio vectorial de palabras y visualizar el encaje de palabras en grupos (clusters).[15]
Véase también
Referencias
- ↑ Mikolov, Tomas; Sutskever, Ilya; Chen, Kai; Corrado, Greg; Dean, Jeffrey (2013). «Distributed Representations of Words and Phrases and their Compositionality». .
- ↑ Lebret, Rémi; Collobert, Ronan (2013). «Word Emdeddings through Hellinger PCA». Conference of the European Chapter of the Association for Computational Linguistics (EACL) 2014. arXiv:1312.5542.
- ↑ Levy, Omer; Goldberg, Yoav (2014). Neural Word Embedding as Implicit Matrix Factorization. NIPS.
- ↑ Li, Yitan; Xu, Linli (2015). Word Embedding Revisited: A New Representation Learning and Explicit Matrix Factorization Perspective. Int'l J. Conf. on Artificial Intelligence (IJCAI).
- ↑ Globerson, Amir (2007). «Euclidean Embedding of Co-occurrence Data». Journal of Machine learning research.
- ↑ Levy, Omer; Goldberg, Yoav (2014). Linguistic Regularities in Sparse and Explicit Word Representations. CoNLL. pp. 171-180.
- ↑ Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). Parsing with compositional vector grammars. Proc. ACL Conf. Archivado desde el original el 11 de agosto de 2016. Consultado el 23 de octubre de 2017.
- ↑ Socher, Richard; Perelygin, Alex; Wu, Jean; Chuang, Jason; Manning, Chris; Ng, Andrew; Potts, Chris (2013). Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank. EMNLP.
- ↑ Firth, J.R. (1957). «A synopsis of linguistic theory 1930-1955». Studies in Linguistic Analysis (Oxford: Philological Society): 1-32. Reprinted in F.R. Palmer, ed. (1968). Selected Papers of J.R. Firth 1952-1959. London: Longman.
- ↑ word2vec
- ↑ A Scalable Hierarchical Distributed Language Model.
- ↑ «Gensim».
- ↑ «Indra».
- ↑ «GloVe».
- ↑ Ghassemi, Mohammad; Mark, Roger; Nemati, Shamim (2015). «A Visualization of Evolving Clinical Sentiment Using Vector Representations of Clinical Notes». Computing in Cardiology.
Content Disclaimer
Informasi ini disarikan dari Wikipedia dan disajikan kembali untuk tujuan edukasi. Konten tersedia di bawah lisensi CC BY-SA 3.0. Kami tidak bertanggung jawab atas ketidakakuratan data yang bersumber dari kontribusi publik tersebut.
- The information displayed on this website is sourced in part or in whole from Wikipedia and has been adapted for the purpose of restating it. We strive to provide accurate and relevant information, however:
- There is no guarantee of absolute accuracy. Wikipedia is an open, collaborative project that can be edited by anyone, so information is subject to change.
- It is not intended to constitute professional advice. The content displayed is for informational and educational purposes only. For important decisions (e.g., medical, legal, or financial), please consult a professional.
- Content copyright. Wikipedia is licensed under the Creative Commons Attribution-ShareAlike License (CC BY-SA). This means that content may be reused with appropriate attribution and shared under a similar license.
- Responsible use. Any risk arising from the use of information from this website is entirely the responsibility of the user.