Не могу просканировать сайт

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем cherkas, 30 ноя 2013.

  1. cherkas

    cherkas Member Пользователи

    Регистрация:
    20 авг 2013
    Сообщения:
    54
    Адрес:
    Украина
    Здравствуйте, помогите пожалуйста собрать ссылки на товары с сайта

    Ссылки недоступны для гостей

    Там примерно 12600 товаров. В фильтре задаю только

    /view_

    в результате получаю то 1881 то 1883 ссылки. Руками на сайте очень быстро находятся товары которых нету в этом списке.

    Если фильтры убрать вообще, то ссылок по сайту получается чуть больше 5000. при этом если опять применить фильтр то получаю те же 1883 ссылки.

    Следом прилагаю одну из ссылку которая почему то не попадает в список

    Ссылки недоступны для гостей
     
  2. Igor_st

    Igor_st New Member Пользователи

    Регистрация:
    8 фев 2013
    Сообщения:
    46
    В чем проблема была, разобрались?


    Я вот также не могу спарсить все ссылки с сайта Ссылки недоступны для гостей

    У метя то около 3 то около 8 тыс получается и каждый раз по разному, фильмов на сайте за 100 тысячь

    Уже и через тор и напрямую, и сайт мой ip не банит

    В чем проблема, подскажите

    Спасибо
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей - тут вроде как только около 2500 товаров
    Ссылки недоступны для гостей
    Функция парсинга карт сайта в программе есть.
     
  4. cherkas

    cherkas Member Пользователи

    Регистрация:
    20 авг 2013
    Сообщения:
    54
    Адрес:
    Украина
    ото ж и оно :). Я с этим сайтом уже разобрался, получилось 12500 с лишним товаров. сделал небольшую хитрость, вывел сначала все товары и задал через изменения номера страницы ссылки на страницы со списком товаров, потом первый раз просканировал сайт собрав с этих страниц ссылки на сами товары, и потом уже по этим ссылкам пропарсил сами товары.
     

Поделиться этой страницей