“Черепаха” путешествует по Рунету

УСЛУГИ

          

     Новую поисковую машину отличают скорость и полнота охвата, а установить ее на своем сайте может любая компания

Компании, владеющие российскими поисковыми машинами, окупают эти проекты в основном за счет размещения на своих сайтах баннерной рекламы. Иной путь выбрали создатели нового поисковика “Черепаха” (www.turtle.ru), об открытии которого было объявлено в конце июня. Бизнес-модель предусматривает продажу лицензий и услуг развертывания “Черепахи” внутри корпоративных сетей, на интранет- и Интернет-сайтах частных фирм и государственных организаций. Систему создала в рамках исследовательского проекта команда бывших разработчиков “Рамблера” под руководством Дмитрия Крюкова, теперь генерального директора фирмы “Стек-Технологии”, входящей в состав группы Stack.

“Черепаха” позиционируется как поисковик нового поколения, так как в рамках этого проекта устранен ряд специфических недостатков, присущих традиционным поисковыми машинам. Например, в качестве параметров запроса ей можно задавать www- и e-mail-адреса, слова, содержащие тире, а также сочетания типа “to be or not to be” (для обычного поисковика эти слова - “мусор”, но “Черепаха” найдет текст Шекспира).

Среди других возможностей, отсутствующих у конкурентов, можно назвать поиск по большому куску текста: пользователь через буфер обмена вставляет несколько абзацев текста в специальную поисковую форму - и “Черепаха” находит его первоисточник с учетом нечеткости дубля.

А еще она поддерживает морфологию 24 языков (ее создавали с прицелом на международный рынок) и умеет определять язык документа.

Одним их главных достоинств системы, по словам Дмитрия Крюкова, является уникальный алгоритм ранжирования результатов поиска, благодаря которому наиболее значимые для пользователя документы выдаются первыми.

Новая архитектура

Как рассказал генеральный директор Stack Group Сергей Лысаков, архитектура системы сделана с расчетом на ее масштабирование. “Черепаха” поддерживает распределенный режим индексации - это значит, что расположенные в регионах серверы могут пересылать ей индексы, составленные по местным сайтам. Развитие поисковика ведется в партнерстве с провайдером RTComm.ru, чья транспортная сеть распространена по всей территории России. В опробовании механизма распределения нагрузки участвует МГУ, а ряд региональных провайдеров выразил готовность разместить кусочки “Черепахи” у себя. Кроме того, будучи инсталлированной на разных корпоративных сайтах, система сможет пересылать с них индексы на головной сервер.

Поисковик базируется на четырех шинах передачи данных: “индекса” (обмен данными между агентами накопления, процессорами поиска, сервером диспетчеризации, геосервером IP-адресов), “результатов поиска” (обмен между процессорами поиска, сервером результатов, сервером ссылок, оптимизаторами запросов), “внешних запросов и ответов” (связывает оптимизаторы с балансировщиком нагрузки и сервером мониторинга) и “данных” (подключается к трем вышеперечисленным шинам, серверам архивов, индексов и дублей).

Сейчас в системе имеется несколько десятков серверов, 12 из которых - сканирующие машины (агенты накопления), просматривающие до 5 млн. документов в день. На конец июня проиндексировано около 80 млн. страниц, и в ближайшее время будет охвачено почти 100% русскоязычной зоны Интернета (100 млн. документов). Текущий объем поисковой базы - 1,8 Тб. Предполагается, что по мере роста популярности будет увеличиваться и число серверов, ориентированных на выдачу результатов поиска клиенту. Архитектура предусматривает, что время поиска никогда не превысит 1,5 с.

Точная сумма затрат на проект не была названа, однако, по словам Сергея Лысакова, в него заложены малобюджетные решения - например, цена поискового сервера составляет $500. По предварительным данным, начальные затраты на проект составляют несколько сотен тысяч долларов. Окупаемости предполагается достичь за счет предоставления поисковых решений компаниям (аннотируемый поиск по сайту или группе сайтов), участия в государственных проектах “Электронной России”, размещения рекламы и платных сервисов. Кроме того, проект имеет имиджевое значение для группы Stack, так как “демонстрирует ее способность делать проекты любой сложности”.

Представители уже добившихся популярности проектов с осторожностью комментируют появление новой поисковой машины. Илья Сигалович, главный разработчик “Яндекса”, так отозвался об этом событии: “На первый взгляд система сделана грамотно, но нужно по крайней мере две недели на ее более детальное изучение”. К этому он добавил, что к августу алгоритмы поиска “Яндекса” должны быть дополнительно оптимизированы и таким образом будет решена проблема замедления выдачи результатов поиска, возникшая из-за продолжающегося роста числа поступающих запросов.