С 5 по 7 июля в Рунете не работал сервис Chronopay, который предоставляет полный спектр услуг по осуществлению интернет-платежей для виртуальных торговых точек. В своих многочисленных пресс-релизах компания “Хронопэй” неоднократно заявляла, что является “безусловным лидером на рынке интернет-платежей” в России. При этом процессинговая компания, к сожалению, поставила своеобразный рекорд по неработоспособности — на протяжении двух дней из-за серьезного сбоя этой системы если не парализованной, то серьезно затрудненной оказалось работа многих российских интернет-магазинов. Кроме того, это самая крупная авария подобного рода в российском сегменте Интернета за последнее время.
Описание проблемы
К счастью для пользователей, в России еще не такое высокой развитие безналичных платежей, как в Европе или США — деньги за привезенный товар часто можно просто отдать курьеру. Правда, одна треть пользователей, согласно недавнему исследованию Profi Online Research, ценит именно разнообразие вариантов оплаты, в том числе “пластиком”. А “благодаря” сбою в системе процессинга, пользователи, которые привыкли платить с помощью безналичных платежей, полностью лишились возможности осуществлять транзакции не только с помощью карт Visa, Master Card, American Express, JCB и Diners Club. “Подвисли” и основные виды как российских (Yandex.Деньги, WebMoney и др.), так общемировых электронных денег (MoneyBookers, AliPay и др.) — именно на них “завязана” универсальная платежная платформа Chronopay.
Без возможности оплатить услуги остались многие компании — особенно те, что вводили сервис оплаты “пластиком” для удобства своих пользователей. Среди них социальная сеть “Мамба”, проект “Билайн Wi-Fi”, SMS-платежи компании “i-Free”, онлайн-магазин re:Store, входящий в одноименную сеть класса Apple Premium Reseller, московский филиал “Ростелекома” и т. д. По сути, неработоспособность платежного шлюза привела к финансовым потерям у ее заказчиков, объемы которых еще только предстоит оценить. Причем наибольшие проблемы в этом случае были, конечно, у продавцов транспортных услуг — к примеру, авиационных билетов, спрос на которые в летний сезон традиционно высок: в этом случае клиент часто может оплатить товар исключительно “пластиком”, поскольку физически может находится в другой стране. Кроме того, определенные проблемы были и у телекоммуникационных операторов.
“Действительно, — отмечают представители компании “Комстар-ОТС”, — сервис по оплате услуг с помощью банковских карт через Chronopay не работал с середины дня 5 июля по раннее утро 7 июля. В настоящий момент резервный канал, который используется — это сервис МТСPay, кроме того, мы ведем работы по увеличению числа партнеров по процессингу карт. Хотя сейчас процессинговая компания — одна. В случае невозможности заплатить по карте действует услуга “Обещанный платеж” — ею можно было воспользоваться и в этот раз”. Правда, назвать хотя бы примерно число абонентов, которые проводят платежи за услуги связи с помощью пластиковых карт в компании отказались. Кроме того, отметим, что МТСPay доступна только владельцам телефонов.
Очень интересной была позиция официальных представителей компании “СкайЛинк”: “в связи со сбоем системы сервис Chronopay был временно недоступен, но так как мы были об этом оповещены и жалоб со стороны абонентов не зафиксировано, штрафных санкций предпринимать не намерены”. Очень благородно, но странно — как минимум несколько пользователей в комментариях у меня в блоге отметили, что обращались в call-центр компании с этой проблемой. Операторы помочь с проведением платежа по пластику не смогли, но предоставили обещанный платеж в сумме, необходимой для бесперебойной работы телефона в течение нескольких дней, пока ситуация не прояснится. Пресс-служба МТС на наши вопросы не ответила без объяснения причин, хотя подтвердила их получение.
Самым неприятным событием это “падение” стало, конечно, для “Скартела” — всего-то за две недели до этого обе компании выпустили пресс-релиз о том, что “Chronopay и Yota завершили испытания системы “на прочность” и могут гарантировать пользователям полную безопасность и защиту от сбоев в работе”. Как оказалось, с гарантиями обе компании поторопились. В разгар “падения” биллинга от Chronopay оператору мобильного WiMAX пришлось в срочном порядке задействовать даже не резервную (ее просто нет), а временную схему приема платежей через один из банков Санкт-Петербурга. Судя по отзывам пользователей в официальном коммьюнити yota_ru в LiveJournal, эта “связка” работала крайне нестабильно: “они [Yota] перешли на какой-то ужас, смог заплатить раза с третьего. То сумма не такая, то карточку не принимает, то данные ввел не так”.
После того, как официальный сайт компании все-таки заработал, там появилось... лишь краткое извещение о том, что “в течение двух дней — 05.07.10 и 06.07.10 платёжные сервисы Chronopay были недоступны. Причины — технического характера, связанные с масштабным сбоем используемого нами программного обеспечения операционной системы. Утром 07.07.2010 работа сервисов компании была полностью восстановлена”. Единственный факт, который остается — общий простой системы определяется в размере 48 часов — с точки зрения SLA с любым крупным клиентом это значительные штрафы. Разумеется, конкуренты платежной системы не стали молча смотреть на подобную ситуацию и, судя по всему, обзвонили крупных клиентов Chronopay с предложениями сотрудничества и более выгодных цен: очень вероятно, что если не основным, то резервным каналом такие системы будут подключены.
Типология проблем
В настоящий момент, судя по записям в блогах Livejournal и сервисе Twitter, существует как минимум три основные версии произошедшего. Первая — системные проблемы у хостера системы, когда разом “слетели” не только все “боевые” серверы, на которых работала система, но и весь бэкап, а также резервные мощности. Второй вариант, который был отмечен и у меня в блоге, связан с массивной кибератакой системы. Правда, говорить о том, что “злоумышленникам удалось отформатировать ряд серверов, уничтожив в остальных случаях важнейшую информацию из базы данных”, конечно, преждевременно — да и официальные представители “Хронопэй” это категорически отвергают. Третий вариант причины “падения” сервиса — это массированная DDoS-атака. Однако, это, скорее, гипотетический вариант — ведь при развитом функционале защитных мер и первоочередности отработки подобных угроз, даже при мощности атаки в 10 Гбит/с “завалить” готовую к этому систему, которая работает в финансовом секторе, чрезвычайно сложно.
Однако официальные представители “Хронопей” представили свое видение ситуации. По словам PR-директора компании Лидии Голиковой, “[пятого июля] у нас было плановое обновление системного ПО на ряде узлов используемой нашей сетью. Оно завершилось успешно, но впоследствии оказалось, что используемое нами программное обеспечение виртуализации OpenVZ в некоторой комбинации с одной из версий ядра Linux и программным обеспечением, обеспечивающим безопасность данных на дисках от несанкционированного доступа, производит “обрушение” файловой системы. Это обрушение проявляется при вполне определённых настройках ПО. Тут нас подвела высокая степень стандартизации генерируемого софта — работу процессинга обеспечивают свыше 200 виртуальных машин. В определённый момент была внесена корректива одновременно почти везде, а через несколько часов мы получили обескураживающий результат. При этом предварительное нагрузочное тестирование, к сожалению, не выявило этой проблемы — с тестовой машиной она не возникала”.
Столь долгое “выпадение” системы из активной работы в “Хронопэй” объясняют “перегенерацией систем, восстановлением ПО и данных из резервных копий — это на первом этапе, на втором — восстановлением последних рабочих баз данных с опорой на сервер сбора протоколов работы. Вторая часть достаточно нетривиальна и не очень быстра”.
Для предотвращение подобных событий в будущем в “Хронопэй” планируют развитие по трем направлениям. Во-первых, будут проведены дополнительные вложения в инфраструктуру резервного копирования — объём обрабатываемых данных вырос за последние 1,5 года приблизительно в 10 раз. Во-вторых, будет усложнена процедура обновления системного ПО — теперь, по всей видимости, компания откажется от абсолютной синхронности смены его версий на всех узлах сети: все будет происходить с определенной задержкой. В-третьих, к осени “Хронопэй” планирует полностью перейти к распределённой модели построения процессингового сервиса. Когда эта процедура будет закончена, процессинг будет функционировать одновременно в нескольких дата-центрах и при возникновении каких-то проблем на процессинговом узле в одном из дата-центров обслуживание клиентов будет переключаться на другой практически без прерывания.
Разумеется, все работающие ИТ-проекты потенциально могут выйти из строя на какой-то промежуток времени по целому спектру различных причин. Но столь длительное “падение”, как у Chronopay, приведет все-таки к определенным изменениям на рынке — крупные клиенты если и не откажутся от услуг этого процессинга (все-таки все восстановлено), но как минимум предусмотрят, наконец-то, резервные каналы для оплаты “пластиком": число продвинутых клиентов в Рунете, которые готовы платить исключительно “пластиком”, становиться все больше.