Сбор ссылок - помогите

Тема в разделе "Разное", создана пользователем Poltavtcev, 15 мар 2012.

  1. Poltavtcev

    Poltavtcev New Member Пользователи

    Регистрация:
    15 мар 2012
    Сообщения:
    4
    Есть сайт: Ссылки недоступны для гостей
    каталог: Ссылки недоступны для гостей
    товар: Ссылки недоступны для гостей
    Тот-же товар но в профиль: Ссылки недоступны для гостей

    Как видите, во второй ссылке на товар появился элемент b66
    Это так в магазин работает фасетный поиск.

    Так вот. Нужны только прямые ссылки на товары без всяких b66. Но парсер цепляет естественно все.
    Как его правильно настроить? Спасибо.

    Прямая ссылка может быть только двух вложенностей. типа:
    Ссылки недоступны для гостей
    и все. если три - это уже тот-же товар но через фильтр.
     
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Вот тут ответы
    Ссылки недоступны для гостей
    и как настроить фильтры
    Ссылки недоступны для гостей

    Если дело только в том, чтобы убрать параметр, и если это не помешает получению прямой ссылки на товар, то лучше всего внести его в фильтр ссылок. В поле "Корректировка сылок". Вы получите нужные вам ссылки.

    Чтобы легче собрать все необходимые ссылки, используйте "Ссылки недоступны для гостей"
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Valiks насчет сканера лучше советовать в тех случаях когда простым способами собрать нельзя - сканирование сайта на сбор ссылок уходит от 5 часов и более а по страницам раздела собрать можно за 5 минут:)
    -
    Через вкладку "ссылки"
    1. Копируете последнюю ссылку страници раздела
    вот http://yugcontract.ua/shop/pg1275/ и вставляете в программу чтобы указав интервал "F2" составить список страниц категории
    Получиться
    http://yugcontract.ua/shop/pg{num}/ диапазон от 1 до 1275 шаг 1

    Фильтр можно порекомендовать с такими критериями

    [​IMG]
    Пауза в мс поставьте 534 чтобы бана не словить
    п.с. если я вас запутал то посмотрите видео от автора Ссылки недоступны для гостей (видео с того момента о котором описывал) или еще одно видео Ссылки недоступны для гостей показывающее суть описанного выше
     
    Последнее редактирование: 15 мар 2012
  4. Poltavtcev

    Poltavtcev New Member Пользователи

    Регистрация:
    15 мар 2012
    Сообщения:
    4
    Извините, если не правильно задал вопрос. Я не то чтобы не пробовал или не разобрался.
    То, что вы предложили - вопроса не решает.
    Вашим способом парсер собирает ссылки на одни и те-же страницы. Виновен в этом фасетный поиск.
    Я написал задачу - нужно парсеру указать определенный тип ссылок.
    В каталоге около 9000 товаров.
    Он собирает более 100 000 - остальное дубли.
    Еще раз перечитайте первый пост.
     
  5. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Методика получения ссылок в Content Downloader

    Наверное, всё-таки не разобрались в методике получения ссылок.

    В данном случае, метод предложенный выше, не отличается ничем от метода получения ссылок через сканер. В реальности, создав диапазон ссылок каталога,
    Код:
    http://yugcontract.ua/shop/pg{num}/ диапазон от 1 до 1275 шаг 1
    мы получаем 1275 ссылок на страницы каталога уже из диапазона ссылок каталога. Именно из них надо вытащить ссылки на сами товары.

    Далее, нам нет необходимости задавать какие-либо фильтры. Всё решается проще, если задать правильные настройки границ поиска ссылок во вкладке "Ссылки". Правильно настроив границы ссылок на странице каталога, мы получим только нужные нам ссылки, так как программа будет получать их только из того диапазона страницы, где указаны прямые ссылки на товары. Тут, если правильно всё указать, линее, обычно, редко попадает. Разве что, к каждому товару идёт несколько ссылок. В нашем случае именно такое наблюдается,- у каждого товара, одна и та же ссылка повторяется 3 раза. Это лечится после парсинга ссылок, нажав на правую кнопку мыши и выбрав "Удалить дубли".

    Пример в приложении. Откройте проект в программе, зайдите во вкладку "Ссылки", запустите парсер и подождите, пока соберутся все ссылки со всех 1275 страниц каталога. По окончании задайте "Удалить дубли". Затем улыбнитесь полученному результату.
     

    Вложения:

    Последнее редактирование: 15 мар 2012

Поделиться этой страницей