Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia

La Lingüística de Corpus es una metodología empírica ya que, a partir de grandes colecciones de textos -corpus o corpora- intenta describir las regularidades de las lenguas por medio de la implementación de programas computacionales, y así, simular los usos reales de ellas. Este trabajo aplica la Li...

Full description

Bibliographic Details
Main Authors: Dueñas Luna, George Enrique, González, Fabio A.
Format: Online
Language:spa
Published: Universidad Pedagógica y Tecnológica de Colombia 2013
Subjects:
Online Access:https://revistas.uptc.edu.co/index.php/linguistica_hispanica/article/view/462
_version_ 1802223933131325440
author Dueñas Luna, George Enrique
González, Fabio A.
author_facet Dueñas Luna, George Enrique
González, Fabio A.
author_sort Dueñas Luna, George Enrique
collection OJS
description La Lingüística de Corpus es una metodología empírica ya que, a partir de grandes colecciones de textos -corpus o corpora- intenta describir las regularidades de las lenguas por medio de la implementación de programas computacionales, y así, simular los usos reales de ellas. Este trabajo aplica la Lingüística de Corpus a un conjunto de historias médicas electrónicas escritas en español nunca analizado lingüísticamente. De estas historias se desconoce la forma en que están escritas por parte de los médicos y las clases de palabras que utilizan cuando describen un suceso en una subdisciplina médica. El conjunto de datos está formado por 19 subdisciplinas médicas, las cuales contienen sus propias historias. Cada historia fue anotada en tres formas diferentes, lematización, tokenización y categoría gramatical (part-of-speech) por medio de TreeTagger. Posteriormente, las frecuencias de las anotaciones se describieron mediante AntConc. Los resultados encontrados para cada subdisciplina muestran las palabras con mayor frecuencia. Las palabras de clase cerrada son las más comunes y utilizadas. Algunas partes de las historias médicas fueron anotadas erróneamente. Por otra parte, se muestran ejemplos que dan a conocer la variabilidad de uso entre expresiones y abreviaturas por parte del personal médico. Además, la escritura médica de la Universidad Nacional de Colombia corrobora la Ley de Zipf.
format Online
id oai:oai.revistas.uptc.edu.co:article-462
institution Revista Cuadernos de Lingüística Hispánica
language spa
publishDate 2013
publisher Universidad Pedagógica y Tecnológica de Colombia
record_format ojs
spelling oai:oai.revistas.uptc.edu.co:article-4622018-09-24T14:17:04Z Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia Dueñas Luna, George Enrique González, Fabio A. Lingüística de corpus AntConc TreeTagger Ley de Zipf La Lingüística de Corpus es una metodología empírica ya que, a partir de grandes colecciones de textos -corpus o corpora- intenta describir las regularidades de las lenguas por medio de la implementación de programas computacionales, y así, simular los usos reales de ellas. Este trabajo aplica la Lingüística de Corpus a un conjunto de historias médicas electrónicas escritas en español nunca analizado lingüísticamente. De estas historias se desconoce la forma en que están escritas por parte de los médicos y las clases de palabras que utilizan cuando describen un suceso en una subdisciplina médica. El conjunto de datos está formado por 19 subdisciplinas médicas, las cuales contienen sus propias historias. Cada historia fue anotada en tres formas diferentes, lematización, tokenización y categoría gramatical (part-of-speech) por medio de TreeTagger. Posteriormente, las frecuencias de las anotaciones se describieron mediante AntConc. Los resultados encontrados para cada subdisciplina muestran las palabras con mayor frecuencia. Las palabras de clase cerrada son las más comunes y utilizadas. Algunas partes de las historias médicas fueron anotadas erróneamente. Por otra parte, se muestran ejemplos que dan a conocer la variabilidad de uso entre expresiones y abreviaturas por parte del personal médico. Además, la escritura médica de la Universidad Nacional de Colombia corrobora la Ley de Zipf. Universidad Pedagógica y Tecnológica de Colombia 2013-03-12 info:eu-repo/semantics/article info:eu-repo/semantics/publishedVersion application/pdf https://revistas.uptc.edu.co/index.php/linguistica_hispanica/article/view/462 Cuadernos de Lingüística Hispánica; No. 20: (julio-diciembre de 2012); 83-98 Cuadernos de Lingüística Hispánica; Núm. 20: (julio-diciembre de 2012); 83-98 2346-1829 0121-053X spa https://revistas.uptc.edu.co/index.php/linguistica_hispanica/article/view/462/462
spellingShingle Lingüística de corpus
AntConc
TreeTagger
Ley de Zipf
Dueñas Luna, George Enrique
González, Fabio A.
Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
title Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
title_full Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
title_fullStr Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
title_full_unstemmed Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
title_short Anotación y descripción de textos digitales sin formato de la base de casos médicos de la Facultad de Medicina de la Universidad Nacional de Colombia
title_sort anotacion y descripcion de textos digitales sin formato de la base de casos medicos de la facultad de medicina de la universidad nacional de colombia
topic Lingüística de corpus
AntConc
TreeTagger
Ley de Zipf
topic_facet Lingüística de corpus
AntConc
TreeTagger
Ley de Zipf
url https://revistas.uptc.edu.co/index.php/linguistica_hispanica/article/view/462
work_keys_str_mv AT duenaslunageorgeenrique anotacionydescripciondetextosdigitalessinformatodelabasedecasosmedicosdelafacultaddemedicinadelauniversidadnacionaldecolombia
AT gonzalezfabioa anotacionydescripciondetextosdigitalessinformatodelabasedecasosmedicosdelafacultaddemedicinadelauniversidadnacionaldecolombia