Dubrowsky
Хроники одного дупла
Блогово  →  WebDev  → 

Организация тематического поиска

05 Сентября 2011 года

Вот например понадобилось мне сделать тематический поиск. Ну, я как бы знаю, что лучше сразу забить, дело гиблое, прошлый век и т.д. - однако понадобилось, не вдаваясь в детали.

Есть куча доменов (штук 500 для начала), как-то там отобранных, где мой поиск должен что-то находить. Желательно, конечно, все что нужно находить. Входные данные такие:

  • хостов - 500 штук
  • документов - в пределах миллиона
  • держать индексатор+поиск у себя - никакого желания
  • зато легко можно обвешаться рекламой что твой московский метро до собянина
  • и хорошо бы как-то своими руками настраивать отображение серпа

Насоветуйте чего-нибудь. Я пока под катом напишу, что вспомнилось.

Вспомнилось вот что:

  1. Flexum от "Поисковых технологий" Ашманова - вроде то что надо, но выглядит как-то полудохло. Индексатор и поиск у них свой, ограничение на бесплатную версию - 200 хостов, вывод только через JavaScript, ссылка на них нужна. Умеет отдавать XML за деньги, но страничку "Тарифы" получилось найти только через Яндекс - не знаю, действуют ли они еще. Написал в суппорт, жду что скажут.
  2. Яндекс.XML - не очень понятно, реально ли на "голом Я.XML" сделать поиск по куче конкретных сайтов. Решение в лоб - перечислять все хосты в запросе - отпадает, длина запроса ограничена 400 символами. Можно делать кучу запросов, но это тоже какое-то шаманство и вообще медленно и ненадежно. На помощь приходит
  3. Яндекс.Поиск-для-сайта - он бывает "обычный" (до 200 сайтов, выдача показывается в iframe либо на их домене), или "тематический" - до 100К сайтов, созданную тематику можно использовать в XML-поиске. Но чтоб создать тему (т.е. список хостов), надо заполнить форму со всякими ФИО - сайт, где будет использоваться - организация и т.д., т.е. так вот сразу не поиграешься. Кроме того, судя по ссылке на XML-поиск с ограничением по рубрике Я.Каталога, используется такой же (если не тот же) механизм. Не удивлюсь, если модератор ответит "а у нас уже есть такая тема, просто допишите "cat:9000632" к запросу". Список сайтов потом якобы можно обновлять автоматически, но при этом оно будет снова уходить на модерацию.
    Кстати, про 200 сайтов в базовом варианте написано, когда пытаешься сайт добавить, а в хелпах значится "Сервис «Поиск для сайта» позволяет добавить в поиск до 20-ти сайтов." - больше походит на правду.
  4. Google Custom Search - либо хаваешь чего дают (т.е. стандартный серп с адсенсом), либо платишь за XML - от 100 баксов за 20К запросов в год, до 2К баксов за 500К запросов в год (кстати, это получается 1370 в сутки - Яндекс свою тысячу дает делать бесплатно и без ограничения по списку сайтов). Чо-то как-то дорого.

Короче, пока жду ответа от Flexum, и пытаюсь выяснить, что там  с модерацией темы в "тематическом поиске" Яндекса. Если будут интересные результаты - напишу еще.

Камменты

Александр09.09.2011, 12:46#
Служба технической поддержки Flexum.ru отвечает на вопросы пользователей в течении 2-х рабочих дней.

Ответ на Ваше письмо был направлен вам в почту 05.09.2011 в 19:44.
Николай Дубровскийон самый09.09.2011, 16:36#
Александр, спасибо, я получил Ваш ответ :)
Когда дойдут руки потестировать - обязательно напишу отдельный пост, пока просто некогда.

Написать коммент: памятка постеру

 

Крутые посты wtf??? →

02.10.2012 · 90 камментов · рейтинг 19.23
28.04.2008 · 44 каммента · рейтинг 9.71
23.01.2013 · 20 камментов · рейтинг 9.37
30.01.2013 · 13 камментов · рейтинг 7.57
28.03.2008 · 23 каммента · рейтинг 6.99

Последне камменты

22.07.2017  СергейПочему не работает form.submit(): Также столкнулся с неработающим .submit() при отпр...
20.07.2017  СергейСвязь: Здравствуйте. Хочу предложить Вам тройной обмен п...
17.07.2017  Илья АрхипкинСколько журналистов в России?: Мне рассказывали как журналисты освещали акцию в К...
21.05.2017  Vadim GukОбработка кликов и цели в Яндекс.Метрике, улучшенный вариант: Большое спасибо за решение задачи.
20.05.2017  ДмитрийТестовое задание для PHP-программиста (Junior): А джуны ещё нужны у вас в компании?

Статсы