Парсинг каталога hnb .com .ua

Тема в разделе "Решение различных задач по парсингу", создана пользователем ergoline, 13 янв 2012.

  1. ergoline

    ergoline New Member Пользователи

    Регистрация:
    15 сен 2011
    Сообщения:
    49
    Адрес:
    UA
    Город:
    Kiev
    Есть достаточно простенький каталог _http://hnb.com.ua/catalog_
    Меня интересует в нем только определенные позиции - в данном случае организации с соляриями - желательно название, контакты.
    Если пойти по варианту задать поиск - то выдача поиска происходит видимо в фрейме - по тому что ссылка что на 1 страницу, что на 10 абсолютно одинаковая.
    Конечно было б просто загрузить карта сайта.... Но расклад такой что, данные расположены в разных городах, а города сделаны как субдобены... Так что основной домен практически ничего не дает.
    так что карта ничего в данном случае не дает.
    __http://simferopol.hnb.com.ua/catalog/s-krasota-solyarii_ категория еще бывает solyariy
    __http://simferopol.hnb.com.ua/catalog/item-15834-akvamarin_ - карточка
    Да и не только карта сайта. ведь разделы организаций находятся внутри субдоменов - названий городов, если б было наоборот - было б проще.
    Попробовал сделать как парсинг статей. Не вышло чего то.
    Но когда я задаю диапозон - то ссылки хоть и появляются, но они не видимы, ну соответсвено толка с них нет.

    Пните меня в нужном направлении пожалуйста ( нужно такой смайл добавить))))
     
    Последнее редактирование: 13 янв 2012
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Смотрите прикрепленный файл проекта.
     

    Вложения:

  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Поисковый запрос сайта имеет следующий вид:
    HTML:
    http://www.google.com/uds/GwebSearch?callback=google.search.WebSearch.RawCompletion&rsz=filtered_cse&hl=ru&source=gcsc&gss=.ua&sig=9ff9e3fdc9a75ff6108d814a8227c711&start=0&cx=partner-pub-1464812072119398:lvyzwpj1qp3&q=солярий&safe=active&gl=www.google.com.ua&qid=134d738bdc37e2a47&context=1&key=notsupplied&v=1.0
    Ссылку я получил с помощью Ссылки недоступны для гостей

    1.) Загрузите прикрепленный выше проект (меню - файл - загрузить проект);
    2.) Нажмите на кнопку {key} и введите нужный поисковый запрос или запросы (каждый на новой строке);
    3.) Нажмите "добавить ссылки" - "используя диапазон";
    4.) Перейдите во вкладку "контент" (открыта по умолчанию) и нажмите F5 (начать парсинг).

    Если будут вопросы - не стесняйтесь, спрашивайте!
     
  4. ergoline

    ergoline New Member Пользователи

    Регистрация:
    15 сен 2011
    Сообщения:
    49
    Адрес:
    UA
    Город:
    Kiev
    Сейчас попробую это дело загрузить - а спрашивать еще буду обязательно и много. По тому что в видео не всегда есть какие фильтры на пример ставите или границы. А без этих "мелочей" все остальное коту под хвост. (хотя может у меня страческое слабоумие начинается - это тоже вариант).
    В любом случае огромное спасибо сейчас попробую приступить

    PS. кажись не все там просто. но попробую еще сделать. кей стоит. но в тхт файле, сохраняет в шаблоне
    остаются ссылки на позицию в категории, ___hnb.com.ua/catalog/usluga-kiev-4-otdyh-150-solyariy_spa
    а сама карточка салона с телефонами идет по __hnb.com.ua/catalog/item-3432-sauna_na_druzhby_narodov
    Просто сейчас проверить не успеваю - с работы выгоняют. Но еще посижу посмотрю - я еще с плагином для фокса не разбирался - может тут что найду.
     
    Последнее редактирование: 13 янв 2012
  5. ergoline

    ergoline New Member Пользователи

    Регистрация:
    15 сен 2011
    Сообщения:
    49
    Адрес:
    UA
    Город:
    Kiev
    Попробую по другому задать вопрос. Можно ли спарсить за 1 раз контактные данные с каталога по определенной тематике.

    приблизительно данные нужны по таким признакам
    [​IMG]
    трудность в том, что города идут как поддомены
    [​IMG]
    если несколько страниц то ссылка выглядит catalog/s-krasota-solyarii-p-...
    нужная инфа название, город, адрес, и
    [​IMG]
    Попросил знакомых помощи в проэкте - они пошли другим путем ( он приложен) - получается скачка только с 1 города.
    Если я сканирую сайт, и запускаю выборку с фильтром т catalog/s-krasota-solyarii то получаю 6 - 7 ссылок(причем с городами которые как субдомены), при том, что судя по количеству городов, должно быть минимум 10-18

    Вопрос как правильно сделать - парсить каждую субкатегорию, или есть вариант пройти за 1 проход.
    Почему я прицепился к этому каталогу? думаю - другие будут похожи, и нужно раз научиться
    Да, а почему ссылки с фотками на клип2 нет не видны?
     

    Вложения:

    • bhb.cdp
      Размер файла:
      28,1 КБ
      Просмотров:
      5
    Последнее редактирование: 24 янв 2012

Поделиться этой страницей