Syllabus query



Academic Year/course: 2019/20

439 - Bachelor's Degree in Informatics Engineering

30233 - Information Retrieval


Syllabus Information

Academic Year:
2019/20
Subject:
30233 - Information Retrieval
Faculty / School:
110 - Escuela de Ingeniería y Arquitectura
Degree:
439 - Bachelor's Degree in Informatics Engineering
ECTS:
6.0
Year:
4
Semester:
First semester
Subject Type:
---
Module:
---

1. General information

1.1. Aims of the course

After having completed a number of courses of programming, databases and information systems, the student is competent to apply data recovery strategies. Data recovery is mainly oriented to identify those records from a repository (file, database, etc.) containing the terms specified in the user's queries. However, when working with heterogeneous and unstructured data sources (e.g., Web or large repositories of text or multimedia data) such searches are not accurate enough to meet the user information needs. The aim of this course is to learn to apply a set of information retrieval techniques that are more focused on retrieving information about a topic than on the recovery of data that exactly match with a query.

The course has a clear applied nature. The student will learn the main information retrieval techniques, applying them to a set of examples of information retrieval systems integrated in Digital Libraries and other document repositories, to provide information search functionality. These systems will be presented in classroom and in the sessions of laboratory work.

1.2. Context and importance of this course in the degree

The course of Information Retrieval is a compulsory subject within the set of subjects on specific technology about "Machine Learning and Information Retrieval" in the Computer Science intensification. Although Information Retrieval is presented as an application example of Artificial Intelligence techniques in the third year compulsory subject of "Artificial Intelligence", this Information Retrieval course gives an insight into the Computer Science discipline that allows developing information retrieval systems for different types of big and unstructured data sources.

1.3. Recommendations to take this course

Students who take this course must have training in methods and techniques of artificial intelligence at the level of the subject of Artificial Intelligence.

2. Learning goals

2.1. Competences

  • Know and apply the basic algorithmic procedures of computer technology to design solutions to problems, analysing the suitability and complexity of the proposed algorithms.
  • Know and apply the necessary tools for storage, processing and access to Information systems, including web-based.
  • Acquire, obtain, formalize and represent human knowledge in a computable form for problem solving using a computer in any area, particularly those related to aspects of computing, perception and action in intelligent environments.
  • Develop and evaluate interactive systems and those that allow the presentation of complex information. To know how to use these systems for solving computer-person interaction problems.
  • Understand and develop computational learning techniques and design and implement applications and systems that use them, including those dedicated to automatic extraction of information and knowledge from large volumes of data.

2.2. Learning goals

The student, for passing this subject, should demonstrate the following results:

  • Knowledge and use of information retrieval techniques on data collections stored in different repositories (including hypermedia and multimedia repositories).
  • Applicability of information retrieval techniques to face new discovery problems. 
  • Management of ontology based techniques to represent the information available in a specific domain.
  • Applicability of semantic retrieval techniques to develop search applications.

2.3. Importance of learning goals

Currently, the dissemination and sharing of data in many different formats through the Web allows any type of software application to process and exploit a set of information resources that until a few years ago was unthinkable.

However, the syntactic and semantic heterogeneity of the data that can be downloaded requires also the application of a series of technical and formal procedures to enable the appropriate processing and extraction of information in order to take advantage of all these resources. Therefore, training in the concepts, techniques and methods presented in this course will be very important to deal with any information search problem.

3. Assessment (1st and 2nd call)

3.1. Assessment tasks (description of tasks, marking system and assessment criteria)

The student must demonstrate the achievement of the intended learning results through the following evaluation activities

Evaluation in June. The overall assessment of the subject is done through two evaluation activities:

P1. Written exam in which the student will have to answer short questions and solve small exercises related to the subject. A minimum score of 5.0 points is required to pass the course. If this minimum score is obtained, this score will represent 50% of the final course grade. The date of this exam will be scheduled by the Faculty of Engineering and Architecture Board.

P2. Practical teamwork project. A minimum score of 5.0 points is required in this activity to pass the course. If this minimum score is obtained, this score will represent 50% of the final course grade. The project final deliverable will be sent electronically prior to the date established by the Faculty Board for the written exam. Previously, during the semester, students will have to deliver some of the elements that form part of the project, accompanied by presentations in class, which will provide students with the necessary teacher’s feedback. If a team of students does not make these partial deliveries and presentations, in addition to submitting all deliverables, they must pass an exam of the teamwork project.

It is mandatory to do both evaluation activities to pass the course. If the mark of one of the activities, or both, is lower than 5.0, the final course grade will be the weighted average of the two grades (50% P1 and 50% P2), with a maximum of 4.0.

Evaluation in September. The overall assessment of the subject is done through two evaluation activities, which will be similar to those of June, with the same weights and minimum requirements. P2 activity in September will consist of the delivery of work and, if the students had not made partial deliveries and evaluations during the teaching of the subject, an additional exam should be done. The scores obtained in June for P1 and P2 are held in September unless the student chooses to be evaluated again. In case of being evaluated for a second time, the new rating will prevail.

 

4. Methodology, learning tasks, syllabus and resources

4.1. Methodological overview

The learning process that is designed for this subject is based on the following:

  • Continuous study and work will do since the first day of class.
  • Learning of concepts and techniques through lectures, in which student participation is encouraged.
  • Application of previous knowledge for solving problems. In the classes related to problems, students will play an active role in the discussion of cases and solving the problems.
  • Practical classes in a laboratory where students learn how to implement the algorithms and strategies presented in lectures.
  • Teamwork projects for the development and evaluation of two information retrieval systems that facilitate searches on a downloadable web document collection. The first system will be a recovery system where traditional information retrieval techniques are applied. The second system will be a semantic recovery system that will transform the collection documents in semantic descriptions of resources (RDF) stored in a triplestore to facilitate its search with a semantic query language. 

4.2. Learning tasks

The course includes the following learning tasks:

  • In the classroom, the syllabus of the course will be developed through lectures, case analysis and problem-solving that apply the concepts and techniques presented in the course syllabus.
  • The practical sessions will take place in a computer lab. Throughout the different sessions, each student must do, individually or in teams, work directly related to the topics studied in the course.
  • In addition, teamwork projects under the tutorship of professors will be realized. In these projects, each team must develop and evaluate different types of information retrieval systems over a document collection accessible through the Web.

4.3. Syllabus

The course will address the following topics:

Subject program

Topic I - Traditional Information Retrieval

  • Introduction to information retrieval: the Boolean model
  • The indexing process
  • The vector space model
  • Evaluation of search engines
  • The probabilistic information retrieval model
  • Relevance feedback and query expansion

Topic II - Hypermedia and multimedia systems

  • Web Search
  • User interface and visualization

Topic III - Semantic Retrieval

  • Introduction to ontologies and the Semantic Web
  • The RDF representation language
  • The SPARQL query language
  • The OWL representation language

4.4. Course planning and calendar

Schedule of sessions and presentation of works:

The educational organization of the subject is as follows.

  • Classroom classes (lectures and case problems) (3 hours in an ordinary week, which will correspond approximately, in the overall calculation of the course, to 2 hours of lectures and 1 hour of the problem-solving per week according to the academic calendar established by the Faculty Board).
  • Laboratory practical sessions (one 2-hour session every two weeks, depending on the academic calendar established by the Faculty Board and the availability for booking laboratories). They are working sessions in the use of technologies, supervised by a teacher.
  • Teamwork under the tutorship of professors where students develop and evaluate different types of information retrieval systems over document collections accessible on the Web.

Presentation of works under evaluation:

  • The deadline for submitting the deliverables of the teamwork project will be the date established by the Faculty Board for the written exam (P1 evaluation activity). The deadlines of partial deliveries and presentations of the teamwork project depend on the academic calendar and will be announced in class on the first day devoted to the presentation of the subject, and on the Moodle platform within the practical work description.

The exam schedule and deadlines of work will be announced in advance.

4.5. Bibliography and recommended resources

[BB: Bibliografía básica / BC: Bibliografía complementaria]

http://psfunizar7.unizar.es/br13/egAsignaturas.php?codigo=30233&Identificador=14698

  • [BB] A semantic Web primer / Grigoris Antoniou...[et al.] . 3rd ed. Cambridge [etc.] : MIT Press, 2012
  • [BB] Baeza-Yates, Ricardo. Modern information retrieval : the concepts and technology behind search / Ricardo Baeza-Yates, Berthier Ribeiro-Neto . 2nd ed. Harlow [etc.] : Addison-Wesley, 2011
  • [BB] Gómez-Pérez, Asunción. Ontological engineering : with examples from the areas of knowledge management, e-Commerce and the Semantic Web / Asunción Gómez-Pérez, Mariano Fernández-López and Óscar Corcho . London ; New York : Springer, cop. 2010
  • [BB] Hearst, Marti A. Search user interfaces / Marti A. Hearst . 1st pub. Cambridge [etc.] : Cambridge University Press, 2009
  • [BB] Manning, Christopher D.. Introduction to information retrieval / Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze . 1st ed., repr. New York : Cambridge University Press, 2009
  • [BB] Witten, Ian H. Managing gigabytes : compressing and indexing documents and images / Ian H. Witten, Alistair Moffat, Timothy C. Bell . 2nd ed. San Francisco, Calif. : Morgan Kaufmann Publishers, 1999
 
 


Curso Académico: 2019/20

439 - Graduado en Ingeniería Informática

30233 - Recuperación de información


Información del Plan Docente

Año académico:
2019/20
Asignatura:
30233 - Recuperación de información
Centro académico:
110 - Escuela de Ingeniería y Arquitectura
Titulación:
439 - Graduado en Ingeniería Informática
Créditos:
6.0
Curso:
4
Periodo de impartición:
Primer semestre
Clase de asignatura:
---
Materia:
---

1. Información Básica

1.1. Objetivos de la asignatura

Tras haber cursado un conjunto de asignaturas de programación, bases de datos y sistemas de información, el alumno es competente para aplicar  estrategias de recuperación de datos. La recuperación de datos consiste principalmente en identificar aquellos registros de un repositorio (fichero, base de datos, etc)  que  contienen o cumplen exactamente con los términos especificados en las consultas del usuario. Sin embargo, cuando se trabaja con fuentes de datos heterogéneas y poco estructuradas (por ejemplo, la Web o grandes repositorios de textos o datos multimedia) este tipo de búsquedas exactas no es suficiente para satisfacer las necesidades de información del usuario. El objetivo de esta asignatura es aprender a aplicar  un conjunto de técnicas de recuperación de información que  están más  enfocadas a recuperar información acerca de una  temática o tópico  y no tanto en la recuperación de los datos que  satisfacen exactamente una consulta.

La asignatura tiene un marcado carácter aplicado. El alumno aprenderá las técnicas de recuperación de información aplicándolos sobre un conjunto de ejemplos de sistemas de recuperación de información integrados tanto en bibliotecas digitales como  en otro tipo de repositorios de documentos para proporcionar funcionalidades de búsqueda. Estos  sistemas serán presentados tanto en las clases de problemas, como  en las distintas sesiones de las prácticas de laboratorio.

 

1.2. Contexto y sentido de la asignatura en la titulación

La asignatura de Recuperación de Información es una  asignatura obligatoria englobada en la materia de tecnología específica en “Aprendizaje y Recuperación de Información” dentro de la intensificación de Computación. Aunque  en la asignatura obligatoria de “Inteligencia Artificial” del tercer curso  se presenta la Recuperación de Información como  ejemplo de aplicación de las técnicas de inteligencia artificial,  esta asignatura de Recuperación de Información permite profundizar en esta disciplina de la informática que  permite desarrollar sistemas de recuperación de información sobre distintos tipos  de fuentes de datos de grandes volúmenes y poco estructuradas.

 

1.3. Recomendaciones para cursar la asignatura

El alumno que curse esta asignatura ha de contar con una formación en métodos y técnicas de inteligencia artificial del nivel de la asignatura de Ingeniería Artificial.

 

2. Competencias y resultados de aprendizaje

2.1. Competencias

  • Conocer y aplicar  los  procedimientos algorítmicos básicos de  las  tecnologías informáticas para diseñar soluciones a problemas, analizando la idoneidad y complejidad de los algoritmos propuestos.
  • Conocer y aplicar  de  las  herramientas necesarias para el almacenamiento, procesamiento y acceso a los Sistemas de información, incluidos  los basados en web.
  • Adquirir,  obtener,  formalizar y representar el  conocimiento humano en  una  forma  computable para la resolución de problemas mediante un sistema informático en cualquier ámbito de aplicación, particularmente los relacionados con aspectos de computación, percepción y actuación en ambientes o entornos inteligentes.
  • Desarrollar y evaluar sistemas interactivos y de  presentación de  información compleja y su aplicación a la resolución de problemas de diseño de interacción persona computadora.
  • Conocer y desarrollar técnicas de aprendizaje computacional y diseñar e implementar aplicaciones y sistemas que  las utilicen, incluyendo las dedicadas a extracción automática de información y conocimiento a partir  de grandes volúmenes de datos.
 

2.2. Resultados de aprendizaje

El estudiante, para  superar esta asignatura, deberá demostrar los  siguientes resultados...

  • Domina  las  técnicas de  recuperación de  información sobre colecciones de  datos almacenados en  distintos repositorios (incluyendo repositorios hipermedia y multimedia).
  • Sabe  aplicar  las técnicas de recuperación de información ante nuevos problemas que  se le plantean.
  • Domina  las  técnicas basadas en  ontologías para representar  la  información disponible en  un  dominio específico.
  • Sabe  aplicar  las técnicas de recuperación semántica para desarrollar aplicaciones de búsqueda.
 

2.3. Importancia de los resultados de aprendizaje

Actualmente, la difusión y compartición de datos de muy diversos formatos a través de la Web permite que  cualquier tipo de aplicación informática pueda procesar y explotar un conjunto de recursos de información que  hasta hace unos  pocos  años era impensable.

Sin embargo, la heterogeneidad sintáctica y semántica de los datos que  se pueden descargar exige  también la aplicación de una  serie de técnicas y procedimientos formales que  permitan procesar y extraer adecuadamente información para aprovechar todos esos recursos. Por ello, la formación en los conceptos, técnicas y métodos presentados en esta asignatura serán muy importantes para abordar con solvencia cualquier tipo de problema de búsqueda de información.

 

3. Evaluación

3.1. Tipo de pruebas y su valor sobre la nota final y criterios de evaluación para cada prueba

El estudiante deberá demostrar que ha  alcanzado los  resultados de  aprendizaje previstos mediante las  siguientes actividades de  evaluación

Convocatoria de  junio. La evaluación global  de la asignatura se realiza a través de dos pruebas:

P1.    Prueba escrita sobre los conceptos básicos de  la asignatura en la que el estudiante tendrá que responder cuestiones cortas y resolver pequeños ejercicios. Se requiere una nota mínima de 5,0 puntos en esta prueba para aprobar la asignatura. Si se obtiene esta nota mínima, entonces la prueba pondera un 50% en la nota  de la asignatura. La fecha de realización de esta prueba será la que  la dirección de  la EINA determine para la realización de  la prueba global  de evaluación de la asignatura.

P2.    Trabajo  práctico realizado en equipos. Se requiere una  nota  mínima de 5,0 puntos en esta prueba para aprobar la asignatura. Si se  obtiene esta nota  mínima, entonces la prueba pondera un 50% en  la nota  de  la asignatura. El trabajo se  entregará de  forma  electrónica con  anterioridad a la fecha que  la dirección de  la EINA establezca para la realización de la prueba global  de la asignatura. Con anterioridad, a lo largo del cuatrimestre, se habrán tenido que entregar algunos de los elementos que forman parte del trabajo, que servirán para que los equipos reciban realimentación sobre el trabajo por parte de los profesores de la asignatura. Si no se han realizado estas entregas parciales, además de enviar todos los entregables se deberá realizar un examen sobre el trabajo.

Es obligatorio realizar y entregar ambas pruebas para poder aprobar la asignatura. Si en una  de las pruebas, o en  las  dos,  la  nota  obtenida fuera  inferior  a  5,0,  la  calificación final  de  la  asignatura será la  media ponderada de las dos calificaciones (50% P1 y 50% P2), con un máximo de 4,0.

Se considerarán como no presentados en esta convocatoria a los alumnos que no hayan realizado ninguna de las dos pruebas P1 y P2, así como a aquellos que se hayan presentado a una de las pruebas, aprobándola, pero no se hayan presentado a la otra.

Convocatoria de  septiembre. La evaluación global  de  la asignatura se  realiza a través de  dos  pruebas análogas a las de la convocatoria de junio, con las mismas ponderaciones y exigencia de notas mínimas. La prueba P2 en septiembre consistirá en la entrega del trabajo y, en el caso de que no se hubieran realizado las entregas parciales durante el periodo de impartición de la asignatura, en la realización de un examen sobre el trabajo. Las calificaciones del  alumno obtenidas en  la convocatoria de  junio  en  cualquier de  las  pruebas (P1 y P2) se mantienen en  septiembre, salvo  que  el alumno opte  por  presentarse a la prueba correspondiente en  esta nueva convocatoria, en cuyo caso  prevalecerá la nueva calificación.

 

4. Metodología, actividades de aprendizaje, programa y recursos

4.1. Presentación metodológica general

El proceso de  aprendizaje que se ha  diseñado para  esta asignatura se basa en  lo siguiente:

  • El estudio y trabajo continuado desde el primer día de clase.
  • El aprendizaje de conceptos y técnicas a través de las clases magistrales, en las que  se favorecerá la participación de los alumnos.
  • La aplicación de tales conocimientos en las clases de casos y problemas. En estas clases los alumnos desempeñarán un papel activo  en la discusión de los casos y resolución de los problemas.
  • Las clases de prácticas en laboratorio en las que  el alumno aprenderá la tecnología necesaria para implementar los algoritmos y estrategias presentados en las clases magistrales y aplicados en las clases de casos y problemas.
  • El trabajo en equipo, en el que  cada equipo deberá desarrollar y evaluar dos sistemas de recuperación de información que faciliten las búsquedas sobre una colección de documentos descargable de la Web. El primer sistema será un sistema de recuperación de información tradicional donde se apliquen técnicas tradicionales de recuperación de información sobre texto. El segundo sistema será un sistema de recuperación semántico que transformará los documentos de la colección en descripciones semánticas de recursos (RDF) que se volcarán sobre un almacén de tripletas para facilitar después su búsqueda con un lenguaje de consulta semántico. 
 

4.2. Actividades de aprendizaje

Las actividades de aprendizaje que se ofrecen al estudiante para  ayudarle a lograr los  resultados previstos son las siguientes:

  • En las clases impartidas en el aula  se desarrollará el temario de la asignatura a través de clases magistrales, del análisis de caso  y de la resolución de problemas de aplicación de los conceptos y técnicas presentadas en el programa de la asignatura.
  • Las sesiones de prácticas se desarrollan en un laboratorio informático. A lo largo  de sus  sesiones cada alumno deberá realizar, individualmente o en equipo, trabajos directamente relacionados con los temas estudiados en la asignatura.
  • Adicionalmente, se realizará un trabajo en equipos bajo la tutela del profesor, en el que  cada equipo deberá desarrollar y evaluar distintos tipos de sistemas de recuperación de información sobre una colección de documentos descargable de la Web.
 

4.3. Programa

Programa de  la asignatura

Bloque I - Recuperación de información tradicional

  • Introducción a la recuperación de información: el modelo booleano
  • El proceso de indexación
  • El modelo vectorial
  • Evaluación de motores de búsqueda
  • El modelo probabilístico
  • Realimentación de relevancia y expansión de consultas

Bloque II - Sistemas hipermedia y multimedia

  • Búsqueda en la Web
  • Interfaz de usuario y visualización

Bloque III - Recuperación semántica

  • Introducción a las ontologías y la Web Semántica
  • El lenguaje de representación RDF
  • El lenguaje de consulta SPARQL
  • El lenguaje de representación OWL
 

4.4. Planificación de las actividades de aprendizaje y calendario de fechas clave

Calendario de  sesiones presenciales y presentación de  trabajos

La organización docente de la asignatura prevista es la siguiente.

  • Clases  en el aula  (magistrales y de casos y problemas) (3 horas en una  semana ordinaria, de las cuales, en el cómputo global  del curso, aproximadamente 2 horas semanales corresponderán a clases magistrales y aproximadamente una  hora semanal, a clases de casos y problemas, de acuerdo con el calendario académico que  establezca la dirección de la EINA).
  • Clases  prácticas de laboratorio (una  sesión de 2 horas cada dos semanas, en función  del calendario académico que establezca la dirección de la EINA y de la reserva de laboratorios). Son sesiones de trabajo en la utilización de tecnologías, tuteladas por un profesor.
  • Tutorías  de los trabajos en equipo donde los alumnos desarrollan y evalúan distintos tipos de sistemas de recuperación de información sobre una colección de documentos descargable de la Web.

Presentación de trabajos objeto de evaluación:

  • El trabajo práctico realizado en equipos será entregado con anterioridad a la fecha límite para su entrega, que  será la misma que  la dirección de la EINA establezca para la realización de la prueba P1. Las entregas parciales relativas al trabajo dependerán del calendario académico y se anunciarán oportunamente tanto en clase el día de la presentación de la asignatura, como en la plataforma Moodle, a través del enunciado del trabajo.

Trabajo del  estudiante

La dedicación del estudiante para alcanzar los resultados de aprendizaje en esta asignatura se estima en 150 horas distribuidas del siguiente modo:

  • 60 horas, aproximadamente, de actividades presenciales (sesiones en el aula  teóricas –30–, de problemas –15–  y sesiones en el laboratorio –15–)
  • 50 horas de trabajo en grupo
  • 35 horas de trabajo y estudio individual  efectivo (estudio de apuntes y textos, resolución de problemas, preparación de clases y prácticas, desarrollo de programas, etc.)
  • 5 horas dedicadas a distintas pruebas de evaluación

 

El calendario de exámenes y las fechas de entrega de trabajos se anunciará con suficiente antelación.

 

4.5. Bibliografía y recursos recomendados

[BB: Bibliografía básica / BC: Bibliografía complementaria]

http://psfunizar7.unizar.es/br13/egAsignaturas.php?codigo=30233&Identificador=14698

  • [BB] A semantic Web primer / Grigoris Antoniou...[et al.] . 3rd ed. Cambridge [etc.] : MIT Press, 2012
  • [BB] Baeza-Yates, Ricardo. Modern information retrieval : the concepts and technology behind search / Ricardo Baeza-Yates, Berthier Ribeiro-Neto . 2nd ed. Harlow [etc.] : Addison-Wesley, 2011
  • [BB] Gómez-Pérez, Asunción. Ontological engineering : with examples from the areas of knowledge management, e-Commerce and the Semantic Web / Asunción Gómez-Pérez, Mariano Fernández-López and Óscar Corcho . London ; New York : Springer, cop. 2010
  • [BB] Hearst, Marti A. Search user interfaces / Marti A. Hearst . 1st pub. Cambridge [etc.] : Cambridge University Press, 2009
  • [BB] Manning, Christopher D.. Introduction to information retrieval / Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze . 1st ed., repr. New York : Cambridge University Press, 2009
  • [BB] Witten, Ian H. Managing gigabytes : compressing and indexing documents and images / Ian H. Witten, Alistair Moffat, Timothy C. Bell . 2nd ed. San Francisco, Calif. : Morgan Kaufmann Publishers, 1999