1. Обслуживание форума приостановлено! Форум работает в режиме чтения.

Сканер ссылок добавляет неизвестное количество ссылок

Тема в разделе "Парсинг во вкладке "Ссылки"", создана пользователем Japonec, 11 авг 2015.

  1. Japonec

    Japonec Well-Known Member Пользователи

    Регистрация:
    19 июл 2015
    Сообщения:
    92
    Адрес:
    Kiev
    Здравствуйте. Сижу вот делаю парсинг ссылок с категории, где на каждой странице по 10 единиц товаров, всего страниц 23, в итоге должно после парсинга выйти 230 ссылок. Сделал глубину парсинга от 2 до 3, и в итоге получаю не 230 ссылок на товар, а свыше 360+. По логам ссылки по нужным критериям фильтра, но откуда они беруться?
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    И как автоматизировать всё это дело, что бы брались нужное кол.ссылок с категорий в которых подкатегории и внутри товары, ещё там есть бренды, мне бы тоже нужно было бы это дело разгрупирировать по брендам, но появилась мысль, при созданию границ, если в коде будет указываться бренд, то парсить уже от туда названия, а в экселе уже групировать всё.

    Все разделы мне нужны с под категориями в 1 файле, это нужно всё по отдельности парсить, а потом склеивать csv внутри парсера?

    На всякий случай прикрепил проект которій натсроен для парсинга раздела ноутбуков и подкатегории матрица.

    Спасибо.
     

    Вложения:

    • med.cdp
      Размер файла:
      28,4 КБ
      Просмотров:
      0
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.990
    Город:
    Riga
    В сканере указать:
    Для ссылок в очереди /notebooks/
    Для ссылок исключить из очереди /goods/
     
  3. Japonec

    Japonec Well-Known Member Пользователи

    Регистрация:
    19 июл 2015
    Сообщения:
    92
    Адрес:
    Kiev
    Это оно будет парсить только подраздел матрици или весь товар с сайта? Так как при такой натсройке уже свыше 1к ссылок пошло на товары
     

    Вложения:

  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.990
    Город:
    Riga
    Для матриц /notebooks/notebook_screen/
    Более строго указать надо так
    Стартовая ссылка
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Для списка очереди /notebooks/notebook_screen/?p=
    Для исключения из списка очереди также /goods/

    В фильтре ссылок
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
    Последнее редактирование: 11 авг 2015

Поделиться этой страницей