## 61343 - Multivariate Analysis Techniques

### Teaching Plan Information

2022/23
Subject:
61343 - Multivariate Analysis Techniques
Faculty / School:
109 - Facultad de Economía y Empresa
Degree:
525 - Master's in Economics
ECTS:
3.0
Year:
1
Semester:
Second semester
Subject Type:
Optional
Module:
---

### 1.1. Aims of the course

The course and its expected results respond to the following approaches and objectives:

The approach of the subject is markedly instrumental since its objective is to provide the student with a set of statistical tools widely used in carrying out a multidimensional exploratory analysis. All topics will be approached from a practical point of view, using different data sets to illustrate the techniques explained. For this, the programming language R will be used, which integrates a multitude of packages that increase its capacity and versatility. R has basic functions related to descriptive data analysis, and the most complex and current models related to the latest advances in the field of statistics or data analysis in areas such as Economics.

The course begins with a topic dedicated to the Introduction to R in which the most common commands are presented, very useful to acquire some basic notions and concepts. Next, different types of data are detailed and, later, basic commands to create, delete, define and operate with the data are explained.

The following topic entitled Initial Data Analysis shows the need to examine the data prior to the application of any statistical technique, in this way a basic understanding of the data and the relationships between variables is achieved. This analysis provides simple methods for organizing and preparing data, handling and evaluating missing data, identifying outliers, and testing underlying assumptions in most multivariate techniques. We begin with the one-dimensional statistical analysis and we provide a guide with the most advisable graphical representations and numerical summaries to describe the most important characteristics in each case. The next step is to analyze the existence of possible relationships between variables. This study is carried out from a two-dimensional perspective and the three general situations that may arise are analyzed. Thus, the guidelines to follow are provided when both variables are qualitative, both are quantitative and when one is quantitative and the other qualitative.

The rest of the topics already address multivariate techniques, therefore, first of all, they are presented in an intuitive way, and an adequate classification of them is made so that the student is able to select the technique that should be applied at each problem. Once the interest in these techniques has been motivated through different examples, next topic entitled Factor Analysis presents the two most used techniques in data reduction processes: Principal Component Analysis and Factor Analysis, indicating their advantages and disadvantages. Both techniques are used to analyze interrelationships between a large number of metric variables, explaining interrelationships in terms of a smaller number of variables called principal components or factors.

The next topic entitled Cluster Analysis seeks to classify individuals into internally homogeneous and externally heterogeneous groups, analyzing the differences between them. It is an example of an unsupervised classification technique since the groups are unknown a priori they are derived from data.

The last topic entitled Discriminant Analysis presents a supervised classification technique since the observations are already previously classified into two or more groups, looking for the reasons that explain that classification.

These approaches and objectives are directly aligned with the following Sustainable Development Goals (SDGs) of the United Nations 2030 Agenda:

● Goal 7: Affordable and clean energy.

● Goal 11: Sustainable cities and communities

● Goal 12: Responsible consumption and production

● Goal 13: Climate action

since the examples that are shown in class analyze databases that address these issues. Although it is true that all the training provided by this subject (theoretical and practical) contributes transversally to the 2030 AGENDA and SDGs, since their training enables the student to contribute to the analysis and management of the 245 SDG indicators. In short, the acquisition of the learning outcomes of the subject provides training and competence to contribute to some extent to the achievement of the SDGs.

### 1.2. Context and importance of this course in the degree

The course has a markedly instrumental nature and aims to train students in the handling of multivariate quantitative techniques commonly used in the implementation of exploratory analysis of multivariate data, which constitutes the first phase of any statistical-econometric study of an applied nature. The techniques studied are fundamentally of two types. The first group (principal components analysis and factor analysis) seek to carry out a data reduction process by identifying and calculating latent factors whose purpose is to express the information contained in a data set in terms of a smaller number of variables that represent the relationships between the analyzed variables. The second group (cluster analysis) seeks to classify objects/individuals into internally homogeneous and externally heterogeneous groups, analyzing the differences between them. All this results in a better understanding of the information contained in a data set that may be relevant when proposing a more formal analysis.

### 1.3. Recommendations to take this course

To have completed a course of introduction to both descriptive and inferential statistics and a course of Introduction to Econometrics

### 2.1. Competences

To pass the course, the student will be competent to use statistical tools to extract relevant information to develop and defend projects applied of economic character.

### 2.2. Learning goals

At the end of the course, the student should be able to:
- Perform an initial analysis of a multivariate data set
- Carry out a principal component analysis and interpret the results obtained
- Carry out a factorial analysis and interpret the results obtained
- Relate the factorial analysis and the principal components, highlighting the similarities and differences between them
- Carry out a data classification process using agglomerative hierarchical procedures
- Carry out a data classification process using partitioning procedures
- Design classification procedures that allow discriminating between groups of observations in the most efficient way possible, as well as analyzing the differences between them
- Validate and interpret the results obtained in a classification procedure

### 2.3. Importance of learning goals

Statistical techniques studied in the course will equip students with a set of powerful tools to make an initial exploratory analysis of the information contained in economic databases. In this way the student will learn to provide scientific rigor to solving economic problems by analyzing empirical data, which is an important step in implementing the scientific approach to problem solving.

### 3.1. Assessment tasks (description of tasks, marking system and assessment criteria)

The student must demonstrate that it has achieved the intended learning outcomes by performing:

- 6 multiple choice questionnaires for each of the topics, except for topic 1 where there will be a questionnaire for the one-dimensional analysis and another for the two-dimensional analysis. These questionnaires will account for 40% of the mark if their average exceeds 3.

- 1 report corresponding to the resolution of exercises related both one-dimensional and two-dimensional exploratory analysis applied to a database (topics 0 and 1) that will account for 30% of the final mark if is higher than 3.

- 1 report consisting of the resolution of exercises that apply the multivariate techniques (topics 2, 3 and 4),  that will account for 30% of the final mark if is higher than 3.

(40%) 6 questionnaires

(30%) Report on topics 0 and 1

(30%) Report on topics 2, 3 and 4

Students who do not pass this continuous evaluation system or those who opt for the global evaluation, will take a final evaluation exam that assesses the theoretical and practical knowledge of the subject through exercises applied to different databases. The answers to the questions will be made through scripts using the R program, and writing a report with the conclusions obtained.

Course assessment will be onsite. In the case of a new pandemic wave assessment will become partly online or fully online. It should be noted that in any online assessment task the student performance may be recorded, following the regulations described in: “https://protecciondatos.unizar.es/sites/protecciondatos.unizar.es/files/users/lopd/gdocencia_reducida.pdf”_

### 4.1. Methodological overview

The learning process is based on the combination of exposure, by the teacher, of the underlying theoretical basis to each of the techniques explained, with application to case studies conducted in the classroom using the R program. This will be done in a participatory environment in which both teacher and students discuss among themselves the interpretation of the results, which will increase the degree of applicability of the explained techniques.

All lectures and seminars will be imparted on site. In the case of a new health emergency caused by the current pandemic all teaching will be moved online.

Theoretical and practical sessions (50%-50%)                                      30                         100%

Work preparation and independent study                                            60                          --------

### 4.3. Syllabus

Topic 0: Introduction to R (4 hours)

Topic 1: Initial Data Analysis (8 hours)

Topic 2: Factor Anaysis (Principal Component Analysis) (7 hours)

Topic 3: Cluster Analysis (7 hours)

Topic 4: Discriminant Analysis (4 hours)

The course will be taught in sessions of two hours in the computer room.

### 4.4. Course planning and calendar

Presentation: In the first session of the course, the objectives and contents of the subject are explained in detail, the teaching methodology used in the classes is presented and the evaluation criteria are clearly exposed. Likewise, an overview of multivariate statistical techniques will be given.

Theoretical-practical sessions: Throughout the course, 15 theoretical-practical sessions will be held in a computer room in which the theoretical bases of the statistical techniques will be explained and then these techniques will be illustrated by means of the analysis of real cases related to the world of economics. For this, the R program will be used as tool.

Autonomous work: To pass the course, the student must submit varied exercises for each of the topics.

### 4.5. Bibliography and recommended resources

The updated bibliography is incorporated through the Library Center and can be accessed by the web

## 61343 - Técnicas de análisis multivariante

### Información del Plan Docente

2022/23
Asignatura:
61343 - Técnicas de análisis multivariante
109 - Facultad de Economía y Empresa
Titulación:
525 - Máster Universitario en Economía
Créditos:
3.0
Curso:
1
Periodo de impartición:
Segundo semestre
Clase de asignatura:
Optativa
Materia:
---

### 1.1. Objetivos de la asignatura

#### La asignatura y sus resultados previstos responden a los siguientes planteamientos y objetivos:

El planteamiento de la asignatura es marcadamente instrumental dado que su objetivo es dotar al estudiante de un conjunto de herramientas estadísticas muy utilizadas en la realización de un análisis exploratorio multidimensional. Todos los temas se enfocarán desde un punto de vista práctico, utilizando diferentes conjuntos de datos para ilustrar las técnicas explicadas. Para ello se utilizará el entorno y lenguaje de programación R que integra multitud de paquetes que incrementan su capacidad y versatilidad. R dispone de funciones básicas relacionadas con los análisis descriptivos de datos, y de los modelos más complejos y actuales concernientes con los últimos avances en el campo de la estadística o el análisis de datos en áreas como la Economía.

El curso comienza con un tema dedicado a la Introducción a R en el que se presentan los comandos más habituales de manejo de datos, muy útiles para adquirir algunas nociones y conceptos básicos. A continuación, se detallan los tipos de datos que se pueden trabajar en R y, posteriormente, se explican comandos básicos para crear, borrar, definir y operar con los datos.

El siguiente tema titulado Análisis inicial de datos muestra la necesidad de examinar los datos previamente a la aplicación de cualquier técnica estadística, de esta forma se consigue un entendimiento básico de los mismos y de las relaciones existentes entre las variables analizadas. Este análisis proporciona métodos sencillos para organizar y preparar los datos, detectar fallos en el diseño y recogida de datos, tratamiento y evaluación de datos ausentes, identificación de casos atípicos y comprobación de los supuestos subyacentes en la mayor parte de las técnicas multivariantes.  Comenzamos por un análisis estadístico unidimensional, cuyo tipo dependerá de la escala de medida de la variable analizada. Por ello se proporciona una guía de actuación sugiriéndole las representaciones gráficas y resúmenes numéricos más aconsejables para describir las características más importantes en cada caso. Una vez realizado el estudio unidimensional de cada variable por separado, el siguiente paso consiste en analizar la existencia de posibles relaciones entre ellas. Dicho estudio se realiza desde una óptica bidimensional y se analizan las tres situaciones generales que pueden presentarse. Así, se proporcionan las pautas a seguir cuando ambas variables son cualitativas, ambas son cuantitativas y cuando una es cuantitativa y la otra cualitativa.

El resto de los temas abordan ya técnicas multivariantes, por ello, en primer lugar, se presentan de una forma intuitiva, y se realiza una adecuada clasificación de las mismas para que el estudiante sea capaz de seleccionar la técnica que debería aplicarse en cada momento en función del problema que pretenda resolver.  Una vez motivado el interés de estas técnicas mediante diferentes ejemplos, el tema 3 titulado Análisis Factorial presenta las dos técnicas más utilizadas en procesos de reducción de datos: el Análisis de Componentes Principales y el Análisis Factorial, indicando sus ventajas y sus inconvenientes. Ambas técnicas se utilizan para analizar interrelaciones entre un número elevado de variables métricas explicando dichas interrelaciones en términos de un número menor de variables denominadas componentes principales o factores.

El siguiente tema denominado Análisis Clúster busca clasificar a los individuos en grupos homogéneos internamente y heterogéneos externamente, analizando las diferencias existentes entre ellos. Es un ejemplo de técnica de clasificación no supervisada ya que los grupos son desconocidos a priori y es necesario derivarlos de las observaciones.

El ultimo tema titulado Análisis Discriminante presenta una técnica de clasificación supervisada ya que las observaciones ya están previamente clasificadas en dos o más grupos, buscándose las razones que explican esa clasificación.

Estos planteamientos y objetivos están directamente alineados con los siguientes Objetivos de Desarrollo Sostenible (ODS) de la Agenda 2030 de Naciones Unidas:

● Objetivo 7: Energía asequible y no contaminante.

● Objetivo 12: Producción y consumo responsables

● Objetivo 13: Acción por el clima

ya que los ejemplos que se trabajan en clase analizan bases de datos que abordan estas cuestiones. Si bien es verdad que toda la formación que aporta esta asignatura (teórica y práctica) contribuye de forma transversal a la AGENDA 2030 y ODS ya que su formación capacita al estudiante para contribuir al análisis y gestión de los 245 indicadores de los ODS. En definitiva, la adquisición de los resultados de aprendizaje de la asignatura proporciona capacitación y competencia para contribuir en cierta medida al logro de los ODS.

### 1.2. Contexto y sentido de la asignatura en la titulación

La asignatura tiene un carácter marcadamente instrumental y tiene como objetivo formar al estudiante en el manejo de técnicas cuantitativas multivariantes habitualmente utilizadas en la implementación de análisis exploratorio de datos multivariantes que constituye la primera fase de cualquier estudio estadístico-econométrico de carácter aplicado. Las técnicas que se estudian son, fundamentalmente, de dos tipos: el primer grupo (análisis de componentes principales y análisis factorial) buscan llevar a cabo un proceso de reducción de datos mediante la identificación y cálculo de factores latentes a los mismos cuya finalidad es expresar la información contenida en un conjunto de datos en términos de un número menor de variables que representan las relaciones existentes entre las variables analizadas; el segundo grupo (análisis clúster) busca clasificar los objetos/individuos en grupos homogéneos internamente y heterogéneos externamente analizando las diferencias existentes entre los mismos. Todo ello redunda en una mejor compresión de la información contenida en un conjunto de datos que puede ser relevante a la hora de plantear un análisis más formal de los mismos.

### 1.3. Recomendaciones para cursar la asignatura

Haber realizado un curso de introducción a la Estadística tanto descriptiva como inferencial así como un curso de introducción a la Econometría

### 2.1. Competencias

#### Al superar la asignatura, el estudiante será más competente para...

Al superar la asignatura, el estudiante será más competente para utilizar las herramientas estadísticas para extraer de los datos información relevante para elaborar y defender proyectos aplicados de carácter económico.

#### El estudiante, para superar esta asignatura, deberá demostrar los siguientes resultados...

Al finalizar el curso, el estudiante deberá ser capaz de:

- Realizar un análisis inicial de un conjunto de datos multivariantes

- Realizar un análisis de componentes principales e interpretar los resultados obtenidos

- Realizar un análisis factorial e interpretar los resultados obtenidos

- Relacionar el análisis factorial con el de componentes principales poniendo de manifiesto las similitudes y diferencias existentes entre ambas

- Llevar a cabo un proceso de clasificación de datos utilizando procedimientos jerárquicos aglomerativos

- Llevar a cabo un proceso de clasificación de datos utilizando procedimientos de particionamiento

- Diseñar procedimientos de clasificación que permitan discriminar entre grupos de observaciones de la forma más eficiente posible así como analizar las diferencias existentes entre ellos

- Validar e interpretar los resultados obtenidos en un procedimiento de clasificación

### 2.3. Importancia de los resultados de aprendizaje

Las técnicas estadísticas estudiadas en la asignatura dotarán al alumno de un conjunto de herramientas muy potentes para realizar un análisis exploratorio inicial de la información contenida en bases de datos económicos. De esta forma el alumno aprenderá a dotar de rigor científico a la resolución de problemas económicos mediante el análisis de datos empíricos que constituye un paso importante en la aplicación del método científico a la resolución de problemas.

### 3.1. Tipo de pruebas y su valor sobre la nota final y criterios de evaluación para cada prueba

#### El estudiante deberá demostrar que ha alcanzado los resultados de aprendizaje previstos mediante las siguientes actividades de evaluación

La evaluación será continua y, para ello, se realizará lo siguiente:

- 6 entregas consistentes en un cuestionario de tipo test de cada uno de los temas, salvo del tema 1 que habrá un cuestionario para la parte unidimensional y otro para la parte bidimensional. Estas entregas supondrán el 40% de la nota, siempre que su promedio supere el 3.

- 1 entrega en formato informe correspondiente a la resolución de ejercicios relacionados con un análisis exploratorio unidimensional y bidimensional aplicados a una base de datos (temas 0 y 1) que supondrá el 30% de la nota final siempre que la calificación del informe sea superior al 3.

- 1 entrega en formato informe consistente en la resolución de ejercicios de aplicación de las técnicas multivariantes estudiadas en el curso (temas 2, 3 y 4), que supondrá en la nota final el 30% restante siempre que la calificación del informe sea superior al 3.

(40%) 6 cuestionarios

(30%) Informe de los temas 0 y 1

(30%) Informe de los temas 2, 3 y 4

Nota: Está previsto que la evaluación se realice de manera presencial pero si las circunstancias sanitarias lo requieren, se realizará de manera semipresencial u online

Los estudiantes que no superen este sistema de evaluación continua o los que opten por la evaluación global, realizarán un examen final de evaluación que valore los conocimientos teóricos y prácticos de la materia mediante ejercicios en los que tendrán que responder a diferentes preguntas sobre distintas bases de datos. Las respuestas a las preguntas se realizarán mediante scripts utilizando el programa R, y redactando un informe con las conclusiones obtenidas. Está previsto que esta prueba se realice de manera presencial, pero si las circunstancias sanitarias lo requieren, se realizará de manera semipresencial u online. Si la evaluación se realizase de forma online, el estudiante podrá ser grabado, pudiendo éste ejercer sus derechos por el procedimiento indicado en el siguiente enlace sobre la CLÁUSULA INFORMATIVA REDUCIDA EN GESTIÓN DE GRABACIONES DE DOCENCIA:

Nota: Está previsto que la evaluación se realice de manera presencial pero si las circunstancias sanitarias lo requieren, se realizará de manera semipresencial u online

### 4.1. Presentación metodológica general

#### El proceso de aprendizaje que se ha diseñado para esta asignatura se basa en lo siguiente:

El proceso de aprendizaje se basa en la combinación de la exposición, por parte del profesor, de las bases teóricas subyacentes a cada una de las técnicas explicadas, con su aplicación al estudio de casos prácticos realizados en el aula utilizando el programa R. Todo ello se realizará en un ambiente participativo en el que tanto el profesor como los estudiantes debatirán entre sí la interpretación de los resultados obtenidos lo cual aumentará el grado de aplicabilidad de las técnicas explicadas al hacerle más fácil al estudiante su asimilación a problemas de análisis de datos de carácter muy general.

Está previsto que las clases sean presenciales. No obstante, si fuese necesario por razones sanitarias, las clases podrán impartirse de forma semipresencial u online.

#### El programa que se ofrece al estudiante para ayudarle a lograr los resultados previstos comprende las siguientes actividades...

El programa que se ofrece al estudiante para ayudarle a lograr los resultados previstos comprende las siguientes actividades

 Actividad formativa Nº Horas % Presencialidad Sesiones teórico-prácticas (50%-50%) 30 100% Preparación de trabajos y estudio independiente del alumno 60 --------

### 4.3. Programa

Tema 0: Introducción a R (4 horas)

Tema 1: Análisis inicial de datos (8 horas)

Tema 2: Análisis Factorial (Análisis componentes principales) (7 horas)

Tema 3: Análisis Cluster (7 horas)

Tema 4: Análisis Discriminante (4 horas)

### 4.4. Planificación de las actividades de aprendizaje y calendario de fechas clave

Presentación de la asignatura: En la primera sesión del curso se explican de forma detallada los objetivos y contenidos de la asignatura, se plantea la metodología docente utilizada en las clases y se exponen los criterios de evaluación con nitidez. Así mismo, se dará una panorámica de las técnicas estadísticas multivariantes.

Sesiones teórico-prácticas: A lo largo del curso se realizarán 15 sesiones teórico-prácticas en un aula de informática en la que se explicaran las bases teóricas de las técnicas estadísticas explicadas en la asignatura para, a continuación, ilustrar su aplicación con el análisis de casos reales relacionados con el mundo de la economía. Para ello se utilizarán como herramientas el programa R.

Entrega de trabajos: Para superar el curso el alumno deberá realizar varias entrega con ejercicios aplicados a bases de datos, tanto en formato cuestionario de tipo test como mediante la realización de informes redactando con rigor los resultados de los análisis realizados.

### 4.5. Bibliografía y recursos recomendados

• Afifi, A. A. Computer-aided multivariate analysis / A.A. Afifi and V. Clark . - 3rd. ed. reprinted London [etc.] : Chapman and Hall, 1998
• Análisis multivariante / Joseph F. Hair...[et al.] ; revisión técnica y compilación de las lecturas complementarias, Mónica Gómez Suárez ; traducció,Esme Prentice, Diego Cano . - 5ª ed., última reimp. Madrid [etc.] : Prentice Hall, D.L. 2008
• Sharma, Subhash. Applied Multivariate Techniques / Subhash Sharma New York : John Wiley and Sons, cop. 1996
• Peña Sánchez de Rivera, Daniel. Análisis de datos multivariantes / Daniel Peña . - [Reimp.] Madrid [etc.] : McGraw-Hill, D.L. 2010
• Uriel Jiménez, Ezequiel. Análisis multivariante aplicado : aplicaciones al marketing, investigación de mercados, economía, dirección de empresas y turismo / Ezequiel Uriel Jiménez, Joaquín Aldás Manzano . - [1a ed.] Madrid : Thomson, D.L. 2005
• Fujikoshi, Yasunori. Multivariate statistics: high-dimensional and large-sample approximations / Yasunori Fujikoshi, Vladimir V. Ulyanov, Ryoichi Shimizu Hoboken. New Jersey (USA) : Wiley, 2010
• Mardia, K.V. Multivariate analysis / K.V. Mardia, J.T. Kent, J.M. Bibby . - Repr. London ; New York : Academic Press, 2003
• Ferrán Aranaz, Magdalena. SPSS para windows : Programación y análisis estadístico / Magdalena Ferrán Aranaz ; revisión técnica Antonio Vaquero Sanchez...[et al.] Madrid, [etc.] : McGraw-Hill, D.L. 1997
• Pérez López, César. Técnicas estadísticas multivariantes con SPSS / César Pérez López . - 1ª ed. Madrid : IberGarceta, D.L. 2009
• Visauta Vinacua, Bienvenido. Análisis estadístico con SPSS para Windows. Vol. 2, Estadística multivariante / Bienvenido Visauta Vinacua . - 2ª ed. Madrid[etc.] : McGraw-hill, D.L. 2003