Обзор применяемых аналитических инструментов в экономико-математическом моделировании

Описанные в статье «Необходимость экономико-математических методов при анализе деятельности кредитных организаций» математические и экономические модели, метода анализа – все это красивая теория, реализовать которую на практике невозможно без двух основных составляющих: исходных данных надлежащего качества и инструмента, позволяющего обрабатывать эти данные.

Если источники данных крайне разняться в зависимости от каждой конкретной задачи, то выбор инструмента не столь разнообразный. В моей работе используются 3 основных программных продукта:

Microsoft Office: Excel

R Studio (R programming language)

SAS Enterprise Guide

Excel – самый распространённый аналитический инструмент в мире, который используется для расчетов в компаниях и предприятиях любого масштаба: от микробизнеса индивидуального предпринимателя до трансконтинентальных корпораций. Причин для этого существует несколько:

Функциональность

Распространенность

Развитая поддержка продукта

Наличие шаблонов и готовых решений сотен и тысяч задач

Дешевизна

Низкий уровень требований к знаниям пользователя

Обработка значительного количества форматов данных

Широкие возможности визуализации и графического интерфейса

Уже достаточно давно excel стал стандартом для обработки данных, а его знание – обязательное условие для того, чтобы назваться аналитиком. Сегодня, несмотря на значительное ужесточение требований к мощности вычислительного инструмента и рост объемов данных, excel позволяет строить полноценные математические модели с множеством расчетов и большим количеством настраиваемых параметров. Учитывая то, что первая копия программы была выпущена в 1985 году, excel является самым развитым инструментом для аналитики, ведь он учитывает пожелания миллионов людей, которые пользуются данным продуктом на протяжении более 30 лет.

В данной работе excel будет использоваться как обработчик переподготовленных данных, полученных с помощью SAS и R Studio, поскольку эти инструменты имеют несколько значительных преимуществ:

Построение однотипных графиков в excel для множества различных данных – неудобная и сложная задача по сравнению с ее реализацией в R Studio

Скорость обработки данных и количество статистических методов у SAS/R превосходит excel на порядок, что очень важно при работе с большими массивами данных

Документация по процедурам и встроенным функциям у excel слабее, что, однако, компенсируется крупнейшим сообществом пользователей

Итерационные вычисления в продукте Microsoft реализованы менее энергоэффективно и сложнее, чем в R

Возможность создания программ и алгоритмов в excel сделана недостаточно хорошо, чтобы выбирать использование VBA (встроенный в Excel язык программирования) вместо любого из существующих объектно-ориентированных языков (R, Python, Ruby и т.п.)

Итак, что же такое R Studio, и почему современный анализ не может ограничиваться одной только работой в Excel? Неся за собой наследие более трех десятков лет, обремененный необходимостью быть широко доступным, продукт от Microsoft не способен справляться с задачами по обработке больших массивов данных в удовлетворительный период времени. В качестве замены данного инструмента, аналитики и компании выбирают те, что изначально созданы для сложных вычислений, статистического анализа и обработки большого объема данных.

Теоретической основой при использовании R Studio в данной работе служит практическое пособие по применению языка R в аналитике «Using R for Data Analysis and Graphics” J.H. Maindonald. Здесь раскрывается концепция программирования на R, описываются ключевые принципы языка и на конткретных примерах разбираются и описываются методы применения данного инструмента для анализа данных, прогнозирования и презентации результатов. Данная книга является обязательной для изучения в том случае, если поставленная задача требует от аналитика проработать значительные массивы данных, представленных как в числовом, так и в текстовом виде.

Одним из таких инструментов стал язык программирования R, который позволяет мне в работе собирать данные, расположенные в сотнях файлов, разложенных по паре десятков директорий, а также быстро их обрабатывать и получать в качестве выходных данных только те числа, которые мне необходимы.

Так, например, выглядит код, который позволяет визуализировать данные по безработице за 30 лет.

str(p <- plot_ly(economics, x = date, у = uempmed))

add_trace(у = fitted(loess(uempmed ~ as.numeric(date))))

layout(title = «Median duration of unemployment (in weeks)», showlegend = FALSE)

dplyr::filter(uempmed == max(uempmed))

layout(annotations = list(x = «year», у = «% of unemp», text = «Peak», showarrow = T))

Рис. 2 Пример визулизации данных по безработица в период с 1970 по 2005 год с помощью R Studio

Несколько простых команд, как мы видим, могут дать значительных результат. Однако, существует ряд трудностей при работе с R, из-за которых практически всегда переподготовленные данные переносятся в Excel для финальной обработки. Во-первых, результаты работы R Studio сохраняет в собственном формате, который не имеет широкого распространения среди обычных пользователей, поэтому полученные данные всегда нужно выгружать куда-либо и при этом менять их формат. Во-вторых, выполнение кода или алгоритма обработки не автоматизировано, и пользователь должен его запустить, что само по себе требует установки R на локальную машину. Но, что ещё больше затрудняет использование, отсутствие привычного для пользователей Office графического интерфейса, оставляет незнакомого со средой разработки R человека, практически, беспомощным в случае наличия ошибки или желания изменить какой-либо параметр.

Заключительным аналитическим инструментом, который применяется в рамках задач экономического анализа, является SAS Enterprise Guide. Его основная задача – обеспечить быстрый и удобный доступ к хранилищу данных, где вся информация представлена в табличном виде. Основу работы в данном программном продукте составляют рукописные запросы в SQL формате и их выгрузка для дальнейшей обработки. SAS также предоставляет пользователю возможность работы в графическом интерфейсе, который обладает широким функционалом в сфере статистического анализа данных:

Дисперсионный анализ

Построение регрессий (линейная, логическая, нелинейная)

Многомерный анализ данных, включая поиск корреляций, кластерный и факторный анализ

Вероятностные графики, гистограммы

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *