Описанные в статье «Необходимость экономико-математических методов при анализе деятельности кредитных организаций» математические и экономические модели, метода анализа – все это красивая теория, реализовать которую на практике невозможно без двух основных составляющих: исходных данных надлежащего качества и инструмента, позволяющего обрабатывать эти данные.
Если источники данных крайне разняться в зависимости от каждой конкретной задачи, то выбор инструмента не столь разнообразный. В моей работе используются 3 основных программных продукта:
Microsoft Office: Excel
R Studio (R programming language)
SAS Enterprise Guide
Excel – самый распространённый аналитический инструмент в мире, который используется для расчетов в компаниях и предприятиях любого масштаба: от микробизнеса индивидуального предпринимателя до трансконтинентальных корпораций. Причин для этого существует несколько:
Функциональность
Распространенность
Развитая поддержка продукта
Наличие шаблонов и готовых решений сотен и тысяч задач
Дешевизна
Низкий уровень требований к знаниям пользователя
Обработка значительного количества форматов данных
Широкие возможности визуализации и графического интерфейса
Уже достаточно давно excel стал стандартом для обработки данных, а его знание – обязательное условие для того, чтобы назваться аналитиком. Сегодня, несмотря на значительное ужесточение требований к мощности вычислительного инструмента и рост объемов данных, excel позволяет строить полноценные математические модели с множеством расчетов и большим количеством настраиваемых параметров. Учитывая то, что первая копия программы была выпущена в 1985 году, excel является самым развитым инструментом для аналитики, ведь он учитывает пожелания миллионов людей, которые пользуются данным продуктом на протяжении более 30 лет.
В данной работе excel будет использоваться как обработчик переподготовленных данных, полученных с помощью SAS и R Studio, поскольку эти инструменты имеют несколько значительных преимуществ:
Построение однотипных графиков в excel для множества различных данных – неудобная и сложная задача по сравнению с ее реализацией в R Studio
Скорость обработки данных и количество статистических методов у SAS/R превосходит excel на порядок, что очень важно при работе с большими массивами данных
Документация по процедурам и встроенным функциям у excel слабее, что, однако, компенсируется крупнейшим сообществом пользователей
Итерационные вычисления в продукте Microsoft реализованы менее энергоэффективно и сложнее, чем в R
Возможность создания программ и алгоритмов в excel сделана недостаточно хорошо, чтобы выбирать использование VBA (встроенный в Excel язык программирования) вместо любого из существующих объектно-ориентированных языков (R, Python, Ruby и т.п.)
Итак, что же такое R Studio, и почему современный анализ не может ограничиваться одной только работой в Excel? Неся за собой наследие более трех десятков лет, обремененный необходимостью быть широко доступным, продукт от Microsoft не способен справляться с задачами по обработке больших массивов данных в удовлетворительный период времени. В качестве замены данного инструмента, аналитики и компании выбирают те, что изначально созданы для сложных вычислений, статистического анализа и обработки большого объема данных.
Теоретической основой при использовании R Studio в данной работе служит практическое пособие по применению языка R в аналитике «Using R for Data Analysis and Graphics” J.H. Maindonald. Здесь раскрывается концепция программирования на R, описываются ключевые принципы языка и на конткретных примерах разбираются и описываются методы применения данного инструмента для анализа данных, прогнозирования и презентации результатов. Данная книга является обязательной для изучения в том случае, если поставленная задача требует от аналитика проработать значительные массивы данных, представленных как в числовом, так и в текстовом виде.
Одним из таких инструментов стал язык программирования R, который позволяет мне в работе собирать данные, расположенные в сотнях файлов, разложенных по паре десятков директорий, а также быстро их обрабатывать и получать в качестве выходных данных только те числа, которые мне необходимы.
Так, например, выглядит код, который позволяет визуализировать данные по безработице за 30 лет.
str(p <- plot_ly(economics, x = date, у = uempmed))
add_trace(у = fitted(loess(uempmed ~ as.numeric(date))))
layout(title = «Median duration of unemployment (in weeks)», showlegend = FALSE)
dplyr::filter(uempmed == max(uempmed))
layout(annotations = list(x = «year», у = «% of unemp», text = «Peak», showarrow = T))
Рис. 2 Пример визулизации данных по безработица в период с 1970 по 2005 год с помощью R Studio
Несколько простых команд, как мы видим, могут дать значительных результат. Однако, существует ряд трудностей при работе с R, из-за которых практически всегда переподготовленные данные переносятся в Excel для финальной обработки. Во-первых, результаты работы R Studio сохраняет в собственном формате, который не имеет широкого распространения среди обычных пользователей, поэтому полученные данные всегда нужно выгружать куда-либо и при этом менять их формат. Во-вторых, выполнение кода или алгоритма обработки не автоматизировано, и пользователь должен его запустить, что само по себе требует установки R на локальную машину. Но, что ещё больше затрудняет использование, отсутствие привычного для пользователей Office графического интерфейса, оставляет незнакомого со средой разработки R человека, практически, беспомощным в случае наличия ошибки или желания изменить какой-либо параметр.
Заключительным аналитическим инструментом, который применяется в рамках задач экономического анализа, является SAS Enterprise Guide. Его основная задача – обеспечить быстрый и удобный доступ к хранилищу данных, где вся информация представлена в табличном виде. Основу работы в данном программном продукте составляют рукописные запросы в SQL формате и их выгрузка для дальнейшей обработки. SAS также предоставляет пользователю возможность работы в графическом интерфейсе, который обладает широким функционалом в сфере статистического анализа данных:
Дисперсионный анализ
Построение регрессий (линейная, логическая, нелинейная)
Многомерный анализ данных, включая поиск корреляций, кластерный и факторный анализ
Вероятностные графики, гистограммы