Proyecto final de la materia de recuperación de información
Dado un conjunto de noticias se debe realizar los siguientes pasos:
- Análisis léxico (eliminar signos de puntuación, números y convertir a minúsculas)
- Eliminación de palabras cerradas/vacías.
- Llevar a cabo el truncamiento o segmentación, obteniendo las raíces de las palabras.
- Obtener alguna representación de los documentos.
- Obtener la similitud coseno entre todos los pares de documentos
- Arancibia Escobar David Rafael 201716731
- Escalante Hernandez Alejandro 201726769
- Hernandez Hernandez Carlos Iván 201743765
- Romero Velázquez Abdiel Vladimir 201744271
- Suárez Carbajal Kevin Germán 201731350
Para ejecutar el programa es necesario instalar las librerías stanza, pandas y scikit-learn.