Статистический анализ: язык R

Специальность / Speciality: 1-31 03 08 Математика и информационные технологии / Mathematics and Information Technology

Направление / Direction: 1-31 03 08-01 Веб-программирование и интернет-технологии / Web Development and Internet Technologies

Специализация / Specialization: 1-31 03 08-01 03 Математическая информатика / Mathematical Informatics

Учебная дисциплина, модуль / Academic discipline, module: Статистический анализ и язык R, модуль «Статистика» / Statistical Analysis and R Language, module «Statistics»

 

Краткое содержание учебной дисциплины, модуля / Brief summary

1. Знакомство с языком R.

Простые вычисления. Использование функций. Знакомство с переменными. Числовые, символьные и логические данные. Сохранение нескольких значений в виде вектора. Расширенные структуры данных: факторы, таблицы данных, списки и формулы. Общие функции. Базовое программирование.

2. Управление данными.

Описательная статистика. Среднее, медиана и мода. Дисперсия. Перекос и эксцесс распределения. Корреляция. Стандартные оценки. Корреляция.

Рисование графиков. Гистограммы. Блочные диаграммы. Диаграммы рассеяния. Гистограммы. Табличные данные. Преобразование переменной. Подмножество векторов и фреймов данных. Сортировка, транспонирование и объединение данных. Изменение формы фрейма данных. Основы обработки текста.

3. Основы математической статистики.

Основы теории вероятностей. Общие распределения. Оценка средних и стандартных отклонений для популяции. Выборочные распределения. Центральная предельная теорема. Доверительные интервалы. Проверка гипотезы. Нулевые и альтернативные гипотезы. Ошибки первого и второго рода. Выборочные распределения для тестовой статистики. p-значение.

4. Статистические инструменты.

Анализ категорных данных. Сравнение двух средних. t-критерий Стьюдента. Сравнение нескольких средних (односторонний дисперсионный анализ). Проверка однородности дисперсии с помощью тестов Левена. Линейная регрессия. Метод наименьших квадратов. Факториальный дисперсионный анализ. Интерпретация дисперсионного анализа как линейной модели.

1. Introduction to R.

Simple calculations. Using functions. Introduction to variables. Numeric, character and logical data. Storing multiple values as a vector. Advanced data structures: factors, data frames, lists and formulas. Generic functions. Basic programming.

2. Managing data.

Descriptive statistics. Mean, median and mode. Standard deviation. Skew and kurtosis. Correlations. Drawing graphs. Histograms. Boxplots. Scatterplots. Bar graphs. Tabulating data. Transforming a variable. Subsetting vectors and data frames. Sorting, transposing and merging data. Reshaping a data frame. Basics of text processing.

3. Statistical theory.

Basics of probability theory. Common distributions. Estimating population means and standard deviations. Sampling distributions. The central limit theorem. Confidence intervals. Hypothesis testing. Null versus alternative hypotheses. Type I and Type II errors. Sampling distributions for test statistics. p-values.

4. Statistical tools.

Categorical data analysis. Comparing two means. Student’s t-test. Comparing several means (one-way ANOVA). Checking homogeneity of variance using Levene tests. Linear regression. Least squares method. Factorial ANOVA. Interpreting ANOVA as a linear model.

Формируемые компетенции / The formed competences

Универсальная компетенция:

— Владеть основами исследовательской деятельности, осуществлять поиск, анализ и синтез информации

Специализированная компетенция:

— Анализировать основные закономерности случайных явлений, разрабатывать вероятностно-статистические модели для прикладных задач

 

Universal competence:

— Know the basics of research, search, analyze and synthesize information

Specialized competence:

— Analyze the basic patterns of random phenomena, develop probabilistic-statistical models for applied problems

Результаты обучения (знать, уметь, владеть) / Learning outcomes (know, can, be able)

В результате освоения учебной дисциплины студент должен:

знать:

— основы языка R

— основные понятия математической статистики

— протоколы проверки статистических гипотез с заданным интервалом достоверности

— модели линейной регрессии и дисперсионного анализа

— требования для использования различных статистических моделей

уметь:

— анализировать выборки данных на соответствие основным статистическим критериям

— формулировать нулевую и альтернативную гипотезы

— интерпретировать результаты статистических функций языка R

—  формировать отчеты по проверке статистических гипотез

владеть:

— графическими инструментами языка R для наглядного описания данных

— средствами языка R для манипуляций с данными

— пакетами языка R для статистической обработки данных

As a result of mastering the academic discipline, the student must:

know:

— basics of the R language

— basic concepts of mathematical statistics

— protocols for testing statistical hypotheses with a given confidence interval

— linear regression and ANOVA models

— prerequisites for using various statistical models

can:

— analyze data samples according to basic statistical criteria

— formulate null and alternative hypotheses

— interpret the results of statistical functions of the R language

— generate reports on verifying statistical hypotheses

be able to:

 — use graphical tools of the R language for a visual description of data

— apply R language tools for data manipulation

— utilize R language packages for statistical data processing

Семестр изучения учебной дисциплины, модуля / Semester of study

7

7

Пререквизиты / Prerequisites

Теория вероятностей и математическая статистика

Probability theory and Mathematical statistics

Трудоемкость в зачетных единицах (кредитах) / Credit units

3 зачетных единицы

3 credit units

Количество аудиторных часов и часов самостоятельной работы / Academic hour of students’ class work,

hours of self-directed learning

Всего 90 часов, из них 36 аудиторных часов и 54 часа самостоятельной работы.

A total of 90 hours, of which 36 academic hours of students’ class work and 54 hours of self-directed learning.

Требования и формы текущей и промежуточной аттестации / Requirements and forms of current and interim certification

Опрос, письменный отчет с устной защитой по лабораторной работе, письменный отчет с устной защитой по решению задач и упражнений, контрольная работа.

Зачет.

Survey, written report with oral defense on laboratory work, written report with oral defense on solving problems and exercises, interim test.

End-of-term test.