Как парсить рубрики сайта если количество страниц пагинации в них неизвестно

Тема в разделе "Генерация списков ссылок", создана пользователем sinoda, 23 ноя 2021 в 13:09.

  1. sinoda

    sinoda New Member Пользователи

    Регистрация:
    10 фев 2012
    Сообщения:
    29
    Город:
    Москва
    Здравствуйте Сергей и Участники форума ! Прошу Вас подсказать или навести на мысли как сгенерировать список ссылок пагинаций. У меня есть список ссылок с общим кол-вом пагинаций, т.е.
    куртки 965
    брюки 485

    и т.д. около 1000 полей...
    Первое поле (куртки 965) означает что на сайте есть 965 страниц пагинаций (страниц с сылками на товары), т.е расширенный список
    куртки_1
    куртки_2

    и т.д.
    как сгенерировать расширенный список из общего, т.е.:
    куртки_1
    куртки_2
    ...
    куртки_965
    брюки_1
    брюки_2
    ...
    брюки_485
    Для каждого поля можно было бы сделать генерацию через генератор ссылок, но полей очень много, для ручного изменения диапазона {num}. По сути это можно было бы сделать через функцию сбора ссылок, но мне нужно сделать без этой функции т.к. сканером это будет дольше, а все данные для генерации есть. Понимаю что итог несколько миллионов полей.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.305
    Город:
    Барнаул
    Здравствуйте.

    Во вкладке "Ссылки" это просто
    Ссылки недоступны для гостей

    Если нужно парсить многопоточно сканером сайтов, то в очередь ссылок добавляются только ссылки на первые страницы рубрик и фильтры очереди ссылок настраиваются таким образом, чтобы сканер обходил только страницы пагинации. Например, только ссылки с вхождением page=
     
    sinoda нравится это.
  3. sinoda

    sinoda New Member Пользователи

    Регистрация:
    10 фев 2012
    Сообщения:
    29
    Город:
    Москва
  4. sinoda

    sinoda New Member Пользователи

    Регистрация:
    10 фев 2012
    Сообщения:
    29
    Город:
    Москва
    Ссылки недоступны для гостей во вкладке отображения процесса сбора ссылки не доходит до конечной существующей страницы пагинации
    upload_2021-11-24_17-34-57.png
    [​IMG]
    изображение взято с сайта sbfactory как образец, суть та же, страниц пагинаций по факту 50, а останавливается намного раньше.
    Стало ясно, что нужно делать с паузой между запросами - тогда всё ок. Но с паузой это очень долго к тому же во вкладке ссылки можно использовать только 1 поток .
    Чтобы ускориться попробовал в многопоточном сканере, но в нем почему то сбор ссылок происходит только с первой страницы пагинации,
    такое ощущение, что в многопоточном сканере динамический оператор {num:1,1} не генерирует страницы.
    Можно ли как-то с динамическим оператором {num:1,1} в многопоточном сканере генерировать с {num:1,1} как и во вкладке ссылки, т.е. работает ли в сканере {num:1,1} ? ( у меня нет)
    И если в сканере не работает генерация {num:1,1} - есть ли другой способ нагенерировать страницы, чтобы с них уже парсить ссылки многопоточно ?
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.305
    Город:
    Барнаул
    Лучше бы приложили ссылку на рубрику, я бы настроил.

    Если при 1 потоке сайт банит, то в многопоточном режиме быстрее забанит, нужно список прокси использовать в этом случае.
     
  6. sinoda

    sinoda New Member Пользователи

    Регистрация:
    10 фев 2012
    Сообщения:
    29
    Город:
    Москва
    В проекте как образец сайт sbfactory. Диапазон пагинации указан на глубину 3 страниц {num:1,1,3} ,
    но ссылок через многопоточный сканер он собирает как с одной страницы - 7 шт,
    а по идее должно быть в 3 раза больше.
     

    Вложения:

    Последнее редактирование: 24 ноя 2021 в 19:01
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.305
    Город:
    Барнаул
    Все просто.

    Добавляете стартовый URL (на первую страницу рубрики).

    Фильтр настраиваете таким образом, чтобы сканер прошел только по страницам рубрики.

    2021-11-24_19-33-02.png
     
    sinoda нравится это.
  8. sinoda

    sinoda New Member Пользователи

    Регистрация:
    10 фев 2012
    Сообщения:
    29
    Город:
    Москва
    АААААААА КРУТО !!! НЕРЕАЛЬНО КРУТО !!! ОГРОМНОЕ СПАСИБИЩЕ !!!!
     
    Root нравится это.

Поделиться этой страницей