Сложный сайтик, помогите

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем maxiz, 24 авг 2017.

  1. maxiz

    maxiz New Member Пользователи

    Регистрация:
    18 май 2017
    Сообщения:
    17
    Добрый день,

    Нужно спарсить все компании по категориям с сайта.
    Ссылки недоступны для гостей
    Проблема с которой сталкнулся, в html коде нет элементов страницы, они как то спрятаны.

    Для начало решил собрать ссылки на страницы компаний,
    Ссылки недоступны для гостей до Ссылки недоступны для гостей

    но через закладку ссылки CD не находит данные, дальше на страницах компаний та же история.

    Буду признателен за помощь , также готов оплатить ваши услуги за полное решение.

    Благодарю!
     
  2. maxiz

    maxiz New Member Пользователи

    Регистрация:
    18 май 2017
    Сообщения:
    17
    пытался собственными силами с примером Ссылки недоступны для гостей найти решение, но так и не смог.

    Поэтому прошу вас господа посодействовать.
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    • Ссылки недоступны для гостей
     
  4. Mind

    Mind Well-Known Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    190
    Сайт не сложный, просто нужно Вам почитать мат часть)
     

    Вложения:

    • firmy_cz.cdp
      Размер файла:
      48,8 КБ
      Просмотров:
      5
  5. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Добрый день!

    Ненужно парсить ссылки сканером. Вставьте в шаблон генерации вставьте такую конструкцию Ссылки недоступны для гостей и сгенерируйте ссылки с 1 по 1543. В фильтре включить пункт "и/или" и использовать такие данные:
    firmy.cz/detail/
    .html
    Ну и самое главное - в Настройках HTTP запросов поставьте галочку DOM в пункте Ссылки и выберите библиотеку Clever Internet Suite. С такими настройками стали собираться ссылки. Правда очень медленно! :)
     
    Последнее редактирование: 25 авг 2017
    actoriy и Root нравится это.
  6. maxiz

    maxiz New Member Пользователи

    Регистрация:
    18 май 2017
    Сообщения:
    17
    я посмотрел то что вы прислали и на подобии в окне сканер сайтов, сумел собрать ссылки на компании, и как gans написал, очень медленно.


    вопрос - каким образом после сбора ссылок парсить страницы компаний? также через DOM, по 30 сек на страницу или есть возможность это обойти?

    Благодарю
     

    Вложения:

  7. maxiz

    maxiz New Member Пользователи

    Регистрация:
    18 май 2017
    Сообщения:
    17

    gans, после сбора ссылок, как парсить сами страницы компаний? также через DOM? по 20-30 сек на страницу?
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
     
  9. gans

    gans Well-Known Member Пользователи

    Регистрация:
    21 апр 2014
    Сообщения:
    309
    Ключевое слово здесь - DOM. По поводу ускорения Root дал исчерпывающий ответ.
     

Поделиться этой страницей