Аналитика в грейде Продакта

10 min readDec 26, 2020

У роли продакта могут отличаться требования к работе с данными, но как правило это только в техническом плане: знание SQL, Python/R, The Jupyter Notebook, Excel, Tableau, Amplitude и прочие инструменты.

Освоить любой инструмент задача вполне понятная, гораздо важнее для продакта освоить принципы работы с данными и они должны быть примерно одинаковыми во всех компаниях и продуктах.

Получилось относительно большая статья, по-хорошему, каждую подтему нужно разбирать отдельно. Местами есть оценочные суждения и субъективные моменты — будь осторожен и не забывай про критическое мышление.

В конце будет несколько рекомендаций + в самой статье ещё некоторые ссылки.

1. Основы аналитики

1. 1. Логика

Пожалуй, самая важная часть. Законов логики немного и они предельно простые, но чтобы ими уметь пользоваться, нужно регулярно тренироваться. Хорошо подходят “детские” задачи на логику и мышление, и здесь не надо смущаться, если где-то написано, что это задачи для детей 10–12 лет. Они не становятся проще от этого (а иногда наоборот). Хотя бы раз в неделю, нужно решать такие задачки. Чтобы ускорить процесс, нужно не только правильно ответ находить, но и уметь объяснить его. Что крайне важно — задачки должны быть хорошими: однозначность ответа (поэтому лучше искать готовые, а не придумывать самому или пытаться найти из жизненных ситуаций), для ответа не требуется обладать дополнительными знаниями (поэтому мозгобойння не лучший вариант, да и что где когда тоже, хотя полезно регулярно играть), акцент в задаче на логику (часто бывают задачи на внимательность — это тоже хорошо, но не нужно в этой теме).

Пример плохой задачки: зимой и летом одним цветом (я выбираю доллар). Никогда не любил такие загадки.

Пример неплохой задачки: в доме 9 этажей, на какой этаж чаще всего ездит лифт? Неплохая, но точно не хорошая.

1.2. Критическое мышление

Писал про это в своём скромном канале, но продублирую здесь.

Его можно развивать регулярно задавая себе примерно такой перечень вопросов:

Почему я считаю это решение правильным?
Откуда оно появилось? (из-за ограничений, просто лежало первым на поверхности, эмоционально или ещё как-то)
Какие есть подтверждающие факты?
Насколько эти факты являются фундаментальнными/обоснованными?
Могу ли я считать, что на первые 4 пункта ответил правильно?

Как правило хватает первых двух вопросов, чтобы отсеять большую часть сомнительных идей. Четвертый крайне важен, особенно если пропустить первые 2.

Главное с этим не переусердствовать. Иначе стоит применить эти же 5 пунктов к оценке своей системы критики. Кстати, эти же 5 пунктов можно проверить через них самих.

В общем виде критическое мышление это про умение задавать вопросы.

На берёзе есть 3 ветки, на каждой ветке ещё по 3 веточке, на каждой веточке по 3 яблока — сколько растёт яблок? Казалось бы очевидная задача, но мы часто отвечаем “27” в других ситуация, когда условия не так прозрачны или когда нам хочется, получить ответ “27”.

1.3. Причинно-следственные связи и корреляции

Причинно-следственная связь — связь двух величин, при которой изменение одной величины порождает изменение другой. Корреляция — это такая связь двух величин, при которой изменение одной из них сопутствует систематическому изменению другой. При этом связь может как быть, так и не быть причинно-следственной (например, обе величины зависят от третьей, но не зависят друг от друга).

Города с бóльшим количеством церквей имеют больше преступлений. Это достоверный факт. Если построить больше церквей, станет ли больше преступлений? Здесь мы видим пример корреляции. На самом деле, обе эти величины (число церквей и количество преступлений) зависят от одной и той же третьей переменной. От населения города (на самом деле возможные другие зависимости, но не суть).

Единственный способ доказать наличие причинно-следственной связи — провести эксперимент.

(Если что, определение и примеры по причинно-следственной связи взяты из курса GO PRACTICE— очень, кстати, рекомендую).

1.4. Что не так с загадкой про ёлочку и лифт

Нет однозначности ответа. Много что одного цвета вне зависимости от времени года. Наверное, можно сказать, что здесь нет причинно-следственной связи и предмет не становится “более ёлочкой”, при снижении изменяемости цвета от сезонности.

А что с лифтом не так? Вроде логично, что вверх все едут на разные этажи, а вниз все на первый в конечном счёте. Но это необязательно так. Мы ничего не знаем про работоспособность лифта, мы не знаем на каком этаже выход из дома (как минимум страна), не знаем про жильцов и про их предпочтения ходить пешком. Здравый смысл подсказывает ответ “первый этаж”. И это ок. Можно предположить, что лифт одинаково исправен, что текст задачи на-русском, а значит в большинстве случае выход на 1 этаже, что люди по больше части используют лифт. В таких задачах ответ на основе здравого смысла вполне допустим, самое главное понимать допущения, которые мы принимаем в этот момент.

1.5. Ещё в тему основы аналитики

Нужно периодически осваивать научное мышление. Про логику, критическое мышление и причинно-следственные связи немного поговорили. Остаётся ещё большой пласт:

Дедукция
Индукция
Гипотезы
Также полезно знать критерии лженауки

2. Метрики продукта

Лучший вопрос про метрики продукта: как ты определяешь, что твой продукт хороший или плохой? Или даже так: твой продукт за последние N месяцев стал лучше?

Здесь не важен ответ “да”, “нет” или “не изменился” (а ещё на самом деле самым честным ответом может являться “не знаю”). С точки зрения аналитики важнее объяснение ответа.

Чтобы ответить на этот вопрос нам нужны метрики, которые характеризуют именно работу продукта. Ответ на этот вопрос вытекает из “Основ аналитики”, но чтобы каждый раз не изобретать велосипед (это как правило долго и “дорого”), можно посмотреть на “готовые решения”, например почитать статьи здесь и в других источниках по ключу “метрики продукта”.

Что хочу дополнить.

2.1. Не единым Retention живы

Когда стоит вопрос, а хорошо ли наш продукт решает проблему пользователя, Retention нам не всегда поможет. Но ведь если пользователь каждый день возвращается в продукт, значит его проблема решается? Возможно, но не факт. Есть продукты, в которых Retention априори не имеет смысла, при этом это могут быть хорошие продукты (банально пользователь возвращается каждый день или наоборот продукт один раз на всю жизнь). В некоторых случаях Retention это метрика лояльности. Ещё Retention может зависеть от ряда внешних факторов (всё это разные кейсы и часто Retention действительно очень хорошая метрика).

Есть ещё как минимум три значимые категории продуктовых метрик:

PV (Product Value) — метрики продуктовой ценности. Чтобы определить метрику PV, нужно для начала ответить на 2 вопроса:
1. Какую проблему решает продукт?
2. Что является фактом решения?
PQ (Product Quality) — метрики продуктового качества. Это скорее про то, насколько сложно/легко пользователю решить проблему с помощью продукта. Если взять для примера поиск, то в PV это будет что-то типа доля пользователей, которым получилось найти информацию. А в PQ тогда точность ранжирования поисковой выдачи.
Виральность — очень интересная тема, но далеко не самая универсальная метрика, отметил просто, чтобы читатель не забыл поинтересоваться.

2.2. Как жить с корреляциями и бизнесовыми метриками?

Не во всех продуктах можно полностью исключить все внешние зависимости и построить чистые метрики, сохранив при этом значимость метрик. Корреляция, это не конец света — это связь через третью величину(ы). Самое главное понимать эти связи и пытаться оценивать степень их влияния. Аналогично с бизнесовыми метриками — по сути они складываются из метрик продукта и внешних факторов (например числа пользователей).

2.3. О целесообразности метрик

Классное бытовое объяснение зачем нужны метрики и следующее сообщение важное уточнение.

Продолжая тему сравнения метрик с нервной системой, а точнее с рецепторами или органами чувств, добавлю, что должна быть определенная целесообразность. Почему у нас нет суперспособностей, типа возможности видеть рентгеновское излучение? Потому что не очень то и надо было: оно не поможет ориентироваться в пространстве, в котором мы живём, при этом будет “дорого стоить” — эта система должна была внедриться, где-то быть, развиваться, множество сложностей с адаптацией и обработкой получаемой информации и всё это ресурсозатратно.

До этого я пару раз употреблял термин “хорошая метрика”:

Метрики должны помогать в работе над продуктом, а не просто быть.
Стоимость внедрения и поддерживания метрик должна “окупаться” от решений, принятых на их основе.

3. Умение читать метрики и интерпретировать их

Есть интересный кейс: предположим есть компания А и Б. Есть некоторый процесс, который может закончиться тем, что клиент уйдёт или останется, соответственно есть метрика, которая показывает количество оставшихся по итогу процесса и количество ушедших. Обе компании смотрят метрику и данные в них собираются одинаковым принципом. Но в компании А считают “чем больше оставшихся, тем лучше”, а в компании Б наоборот. Как такое возможно и неужели в Б не стремятся сократить отток? Добавим немного прозрачности к процессу: это что-то типа KYC, но необязательное и с целью выявить недоброжелательных клиентов. И в компании Б руководствуются тем, что хорошие клиенты вообще не должны попадать в эту процедуру и лишние беспокойство — это плохо. Теперь выглядит так, что компания А неправильно читает метрику. И да и нет. Конечная цель — показатель оттока. Но тут неправильно смотреть на оставшихся клиентов и брать это в целевую метрику — нужно смотреть по количеству ушедших. Но это не делает подход компании Б однозначно правильным. Во-первых, в этом процессе количество оставшихся не может быть равно 0 — иначе это будет сильно плохая цель. Во-вторых, ни А, ни Б не могут однозначно сказать насколько это плохо лишний раз потревожить клиента и по факту могут ошибать и те и другие.

Есть простые очевидные метрики. Но очень часто это не так.

Кстати, фраза “очень часто” очень часто не подкреплена какими-то данными, чтобы говорить, что очень часто

В данном примере нельзя делать какой-то вывод успеха/неуспеха по метрике. Но можно за ней наблюдать на предмет каких-то аномальных выбросов и уже по ситуации разбираться, хороший это выброс или нет. Это получается не метрика продукта и даже не бизнесовая метрика, а скорее некая сигнализирующая метрика.

Другой немаловажный момент, который я сразу отметил “данные в них собираются одинаковым принципом”. Это очень важно, потому что нельзя никак интерпретировать метрику, если нет представления о том, как в ней собираются данные.

4. Проверка гипотез при помощи данных

В целом про количественные исследования возможно напишу позже в отдельной теме про исследования.

4.1. Некоторые мысли про стат значимость

Уже тяжело кого-то удивить таким понятием, как статистическая значимость. Долгое время у меня в голове было примерно такое представление: оказывается не каждому числовому результату можно доверять (даже если выполнены все требования по сбору данных), что всегда есть некоторая вероятность, что полученный результат это случайность, у этой случайности может быть некоторый диапазон, в который будут чаще всего попадать значения, и что есть какие-то формулы, которые могут посчитать доверительный интервал и если 0 попадает в этот интервал, значит результат не значимый или по-другому — случайный. А хороший продакт не полагается на волю случая и поэтому использует проверку на стат значимость и желательно с границами доверительного интервала в 95%, чтобы наверняка.

Однажды я усомнился в этой магии. Давайте посмотрим такую картинку:

Картинка из курса PRODUCT MINDSET ADVANCED

Не суть, как она собирается. Главное, что там тот же вывод: вот некоторое распределение, и если в него попадает 0, то результат не стат значимый. Ну тут же явно видно, что пик у этой “горы” правее 0? А если взять “рамки” не по 95% доверительному интервалу, а по 80% — то и вовсе не будет попадать 0 (на самом деле с 80% скорее всего тоже попадёт, точно не считал). А что если нам действительно взять не 95% для доверительного интервала, а 80%? Если перефразировать, то мы же в 80% случаев в “плюсе”? Это ведь хорошо? Ок, а если бы у нас было бесконечное количество ресурсов, времени и терпения пользователей на наши эксперименты и каждый из них имел бы равный вклад в изменение метрик — почему бы не взять 51%?

Подобные рассуждения меня привели к тому, что нужно понимать, как устроена стат значимость, какие у нас стоят цели, чем мы рискуем:

Что если мы примем решение о значимости результата там, где на самом деле получилась случайность (вроде это называется ложно-положительные результат или ошибка первого рода) — здесь как раз определяются границы доверительного интервала. Что мы рискуем потерять, если мы ошибочно приняли решения?
Что если мы ошибочно примем решение не вносить изменения, хотя разница есть (вроде это называется ложно-отрицательный результат или ошибка второго рода) — тут своего рода упущенная выгода.

Для понимания можно подумать над двумя бытовыми примерами:

Выдача кредита
Тест на коронавирус

Соответственно, я считаю, что продакт может не разбираться сильно глубоко в теории вероятности и уж точно не должен знать все формулы наизусть. Задача продакта здраво подходить к строгости к данным: оценивать риски от принятия неправильных решений, оценивать потенциально упускаемую выгоду и воообще смотреть с точки зрения целесообразности.

4.2. Про А/В-тестирования и про целесообразность

Есть множество материалов на эту тему, отмечу, что мне понравилось как эта тема раскрыта в курсе PRODUCT MINDSET ADVANCED, но сам курс рекомендовать не могу.

От себе дополню рассуждениями на тему целесообразности экспериментов — можно посмотреть в моём скромном канале.

5. Юнит-экономика

Не буду открывать Америку. Поделюсь своим подходом: я не люблю формулы. Точнее так: я не люблю учить формулы, и не советую. В большинстве случаев хватит школьной математики, а если нет — зови аналитика. Прелесть школьной математики в том, что она сводит к набору базовых принципов и всего парочке формул, которые действительно сложно вывести (+аксиомы). Что нам понадобится:

к обеим частям уравнения можно добавлять одно и тоже число
обе части уравнения можно умножать на одно и тоже число (желательно не делить на 0)
от перемены мест слагаемых (множителей) значение суммы (произведения) не меняется
общие принципы сложения и умножения

В конечном счёте, нам нужно из доходов вычесть расходы.
Не забываем, что мы смотрим на показатели продукта, а не роста, поэтому:

нужно считать на юнит (и для начала определить, что есть юнит для продукта)
сегментировать
делать нужные когорты
не забыть про виральность и повторные покупки (кстати, не только покупки)
не подменять ключевые показатели на коррелирующие (пример с LTV)

Это даст возможность вывести правильную формулу конкретно для твоего случая. В большей степени здесь нам нужны термины, чтобы общаться на одном языке.

Немного рекомендаций

Книги

How to Measure Anything: Finding the Value of Intangibles in Business, D.Hubbard (на русском — Как измерить все, что угодно). Лучшая книжка, чтобы “включиться” в аналитику и понять, как правильно работать с данными.
Lean Analytics: Use Data to Build a Better Startup Faster, Croll Alistair, Yoskovitz Benjamin. (БЕРЕЖЛИВАЯ АНАЛИТИКА. Как быстро создать стартап на основе данных)
Краткий перевод
Дебора Рамси. Статистика для чайников. Учебное пособие
Не читал, но слышал рекомендацию.
Теория вероятностей и математическая статиски, Кремер Н. Ш. Не читал, но рекомендовали как хороший учебник по терверу.

Курсы

GO PRACTICE — топ, могу уверенно рекомендовать.
PRODUCT MINDSET ADVANCED — хороший блок был про А/В.
Про научное мышление — не проходил, но темы и оценки очень хорошие.

Погуглить

Задачи на логику (не надо сложные искать)
Про PV, PQ, виральность
А/В
Сложные примеры юнит-экономики

Дополнительно

Играть/смотреть “что где когда” или аналогичные квизы, по пути пытаясь для себя понимать, где “хороший вопрос”, а где нет.
Интересная статья про принципы мышления.
SQL — сам пока что ищу хороший курс
Python — отличный курс, чтобы с нуля познакомиться с базовыми принципами и порешать кучу задачек на алгоритмы и подобное.

Поделись своим мнением в комментариях, а ещё можно поставить лайк, если понравился материал :)