16.02.2018
Патрик Осборн, 29 июня 2016
Когда мы говорим об анализе HR-данных, мы оперируем такими терминами как машинное обучение, алгоритмы и добыча данных. Но знаем ли мы значение этих терминов на самом деле? Честно говоря, когда я впервые их услышал, я не знал… В этой статье мы разберем несколько часто используемых понятий HR-аналитики.
Добыча данных напоминает поиски золота. Золотоискатели просеивают горы грязи и камней в надежде найти кусочек блестящего металла. Добыча данных – это процесс обнаружения в массивах сырых данных паттернов и представления их в понятном виде, что, в свою очередь, можно использовать для прогнозирования поведения или развития событий. К слову, 99,5% всех данных в мире никогда не анализировались.
Применяемая для извлечения данных техника называется машинным обучением.
Машинное обучение – это метод, часто применяемый в процессе добычи данных. С помощью этого метода машина (компьютер) обучается на предоставленных данных путем их анализа и обнаружения паттернов. Это означает, что машинное обучение можно расценивать как форму искусственного интеллекта, поскольку оно дает компьютерам инструменты, необходимые для обработки ими новой информации.
Как я объяснял в предыдущем посте, дерево решений представляет собой модель, которая выглядит как дерево и состоит из решений и их возможных последствий. Это полезный инструмент для прогнозирования (ближайшего) будущего. Дерево решений позволяет предположить, что может произойти, на основе имеющейся информации. Это очень похоже на вынесение уроков из прошлого опыта. На дереве решений каждое решение представлено узловой точкой, а каждое следствие – ветвью.
В своем предыдущем посте о предиктивной аналитике в HR я объяснял концепцию дерева решений на примере: я пытался спрогнозировать, пойдут ли дети гулять, на основе данных о погоде за 14 дней. Дерево решений выглядело следующим образом:
На этом дереве видно, что дети, вероятно, пойдут гулять, если будет ясно (да). Если будет идти дождь, дети, скорее всего, не пойдут гулять (нет). Это дерево решений было построено с помощью бесплатного приложения по добыче данных Weka и имеет прогностическую точность 71%.
Многие HR-специалисты часто пользуются программой Excel. Однако большинство специалистов в области предиктивной HR-аналитики пользуются алгоритмами R. R – это, вероятно, самый популярный инструмент среди ученых, работающих с данными. R является (бесплатной) системой с открытым кодом для статистических вычислений и визуализации. Она также позволяет работать с большими массивами данных, слишком большими для обработки в Excel.
Мы много говорим о данных, а их можно разделить на два типа. Когда информация четко организована в таблицу или базу, она называется структурированными данными. Например, HR-специалисты знают ФИО своих сотрудников, их возраст, адрес, в каком отделе они работают, какова их эффективность и т.п. Вся эта информация структурирована: по имени или идентификационному номеру можно с легкостью найти данные сотрудника.
Неструктурированные данные представляют собой обратное. Из-за отсутствия структуры обработка таких данных неизбежно требует много времени и усилий. Возьмите электронные письма, например. Четко упорядочить письма по теме или содержанию невозможно (следовательно, это неструктурированная информация). Подобные данные, вероятнее всего, необходимо будет структурировать, прежде чем анализировать.
При обучении с учителем компьютер может учиться, опираясь на критериальные данные. Например, если вам нужно спрогнозировать количество сотрудников, которые уволятся по собственному желанию, наиболее простой способ – это позволить компьютеру изучить прошлые данные. В модели обучения с учителем компьютер анализирует данные об уволившихся сотрудниках. Затем он сопоставляет эти данные с данными о людях, оставшихся в компании за тот же период времени. Эта информация говорит компьютеру о том, кто покинул компанию, а кто нет, и позволяет построить прогностическую модель, определяющую сотрудников, которые, вероятно, уволятся. Это пример машинного обучения с учителем.
При обучении без учителя у компьютера нет критерия, на который он может опираться. Компьютер по-прежнему может делать прогнозы на основе этих данных с помощью кластеризации. На следующем примере будет показано, как работает кластеризация.
Кластеризация – это метод машинного обучения, в котором прогнозирование осуществляется за счет объединения данных в кластеры.
Кластеризация данных означает, что компьютер ищет группы наблюдений, обладающие некоторыми сходствами. Следующий пример показывает 1000 наблюдений, разделенных на три кластера.
Машинное обучение позволяет оценивать особенности различных кластеров. Помимо этого, при добавлении нового наблюдения (точки) алгоритм может спрогнозировать, к какому кластеру оно, скорее всего, принадлежит. Точка внизу справа, вероятнее всего, относится к кластеру 1, а точка наверху справа – к кластеру 2.
Это, конечно, довольно простой пример. Реальность, как правило, немного сложнее.
Когда у вас есть набор данных, вы можете построить предиктивную модель. Но как узнать, что прогнозы точны? Чтобы это выяснить, вам нужен второй набор данных, который называется тестовым набором.
Как правило, тренировочные и тестовые данные выделяются путем разделения одного полного набора данных (см. рисунок ниже). Первая часть этого набора служит для обучения модели. Вторая часть набора – это тестовые данные. Когда модель построена, эти (неизвестные модели) данные применяются для проверки того, насколько точны прогнозы нашего алгоритма.
Если не выделять эти два набора данных, проверять точность модели придется на тех же самых данных, на основе которых она была обучена. Это фундаментальная ошибка, которая может приводить к так называемому «переобучению».
Не все прогностические модели одинаковы.
С помощью машинного обучения можно проводить очень сложный, детальный анализ. Из-за этой детальности существует риск «переобучения». Это означает, что возможно создать модель, способную прогнозировать данные, использованные для ее обучения, (практически) с абсолютной точностью!
Возьмем упомянутый ранее пример с данными о погоде за 14 дней.
На рисунке показано дерево решений, со 100% точностью прогнозирующее, пошли ли дети гулять за исследуемый период в 14 дней. Очевидно, что эта модель очень подробна, поскольку она создана специально для конкретного набора данных.
Сравните эту модель с моделью ниже – простой и не требующей разъяснений. Если на улице солнечно, детей, скорее всего, можно увидеть на площадке. Если идет дождь, то мы вряд ли увидим их там. Эта модель проста и понятна с нашими имеющимися знаниями.
Модель выше невероятно сложна. Для ее построения мы использовали данные за 14 дней (т.е. 14 наблюдений). Однако наша модель имеет 19 (!) возможных исходов. Это означает, что существует больше возможных исходов, чем мы вводим в данные. Другими словами, эта модель чрезмерна сложна.
Проблема переобучения заключается в том, что модель идеально приспособлена под данные, на которых она обучалась. Однако на практике она не применима. При добавлении к этой модели новых данных ее точность резко снизится. В то время как точность более простой модели ниже, вполне вероятно, останется неизменной.
Поэтому не позволяйте ввести себя в заблуждение, если вам говорят о прогностической модели, делающей прогнозы с высокой точностью! При более детальном рассмотрении модель может оказаться не столь ценной на практике.
Естественно, 9 понятиями, рассмотренными в данной статье, не ограничивается все то, что необходимо знать об HR-аналитике. Но я надеюсь, они помогут вам лучше понимать, о чем вам говорят консультанты и специалисты, работающие с данными.
Источник: http://www.analyticsinhr.com/blog/9-hr-analytics-terms-know/
Переведено на русский язык Командой Talent Q