Парсинг товаров с сайта на ASP.NET

Тема в разделе "Границы парсинга", создана пользователем strateg2010, 21 мар 2018.

  1. strateg2010

    strateg2010 Active Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    181
    Город:
    порт
    Есть сайт в польше, который написан на ASP.NET, окончание всех ссылок .aspx (мало ли важно), нашел нужные мне ссылки товаров около 180. Начал настраивать парсинг контента, открываю первую ссылку и товар не соответствует артикулу по которому ищу, открываю в предпросмотре другой товар, тоже самое, содержимое, фото и все остальное точно такое же как и предыдущая страница и так со всеми ссылками.
    в общем если открывать любую страницу, там будет один и тот же товар, если искать через сайт по этим артикулам (они в PARAM) то страницы с товарами меняются, в чем может быть затык? Есть ли какие нибудь надстройки которые могут бороться с такими не очень приятными вещами? Если да то как всегда ссылочку на лекцию пожалуйста.
     

    Вложения:

    • jaxon_pl.cdp
      Размер файла:
      72,8 КБ
      Просмотров:
      4
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Открыл проект и любую ссылку
    Ссылки недоступны для гостей
    что именно не устраивает непонятно.
    Опишите более детально и с картинками.
    Спасибо
     
  3. strateg2010

    strateg2010 Active Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    181
    Город:
    порт
    А вы сколько таким образом ссылок просмотрели? откройте штук 5 и посмотрите на содержимое
     
  4. strateg2010

    strateg2010 Active Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    181
    Город:
    порт
    А если с картинками, то вот только что зашел, просмотрел 5 ссылок, вот скрин 5 ссылки:
    [​IMG]
    и теперь эта же ссылка но только в браузере:
    [​IMG]
    Прошу обратить внимание именно на артикулы сверху, зеленого цвета.
     
  5. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Помоему неправильно собраны ссылки
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    это одна и таже ссылка
     
  6. strateg2010

    strateg2010 Active Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    181
    Город:
    порт
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Вот совершенно разные ссылки (Открывать строго в CD так как в браузере будут разные в CD одинаковые!)

    Короче сейчас настрою границы парсинга, придется все спарсить и я вам скину то что получилось.
     
  7. strateg2010

    strateg2010 Active Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    181
    Город:
    порт
    Просто запустите проект и посмотрите что получится. все ссылки разные, а фото у всех одинаковый. Почему? Потому что все страницы берутся из КЭША, как они туда попали? Без понятия. Почему остальные сайты норм парсятся и нормально подгружаются? Тоже хз. Отключил я кэширование в CD? Конечно!

    Блин ну я не знаю как еще объяснить суть проблемы? Просто скачайте проект, запустите у себя, и посмотрите хотя бы на фото того что спарсится. Почему если открыть одну ссылку, она кешируется и при открытии других ссылок ничего не меняется?(все относится к CD если смотреть)

    Только что спарсил 31 товар у всех одна и та же картинка, АААААА

    Ссылки недоступны для гостей вот сами смотрите.
     

    Вложения:

    • jaxon_pl.cdp
      Размер файла:
      73,1 КБ
      Просмотров:
      2
  8. strateg2010

    strateg2010 Active Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    181
    Город:
    порт
    Есть другой вариант, который я рассматривал, сканером сайта найти все товары, и потом отсортировать то что надо и не надо. Нашел больше 50.000 ссылок на товары, это польские ссылки, русские и английские. как их отсортировать ВОООБЩЕ без понятия. Остался последний вариант это вот этот и все.
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    При таком случае когда у товара может быть ссылка разная - используйте макрос DUPIGNORE (опции макроса) в шаблоне вывода, настройте поле артикул или другой элемент который строго не меняется у товара. Такие источники встречаются редко но они есть, и только через DUPIGNORE можно корректно распарсить.
     
  10. strateg2010

    strateg2010 Active Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    181
    Город:
    порт
    данный макрос к какой именно границе парсинга использовать? мне по сути дела нужны только картинки
     
  11. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    К артикулу, как видим он всегда у товара постоянный вне зависимости от разных ссылок
     
  12. strateg2010

    strateg2010 Active Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    181
    Город:
    порт
    и получится один товар, так как при парсинге все ссылки будут дублями
     
  13. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Тогда можно попробовать привести ссылки в нормальный вид, убрав метку cache, проект приложил.
    Внизу товара есть таблица со всеми его под-артикулами (колонка К), стоило проект делать на основе распарсивания этой таблицы.

    [​IMG]
     

    Вложения:

    xLime и Root нравится это.
  14. strateg2010

    strateg2010 Active Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    181
    Город:
    порт
    Ух ты.. скажите пожалуйста как вы привели все ссылки к такому виду? удалили Search/cache и все? я так делал у меня сразу главная открывалась
     
  15. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Проверил работоспособность ссылок, оказались корректными после замены, и добавил в фильтр ссылок Ctrl+3 (справо ниже заметите)
     
  16. strateg2010

    strateg2010 Active Member Пользователи

    Регистрация:
    12 фев 2018
    Сообщения:
    181
    Город:
    порт
    Низкий Вам поклон! Спасибо буду теперь знать.
     
    kagorec и Root нравится это.
Similar Threads
  1. qoren
    Ответов:
    7
    Просмотров:
    1.063
  2. SylarMG
    Ответов:
    16
    Просмотров:
    1.130
  3. Arless
    Ответов:
    1
    Просмотров:
    692
  4. chikchirik
    Ответов:
    1
    Просмотров:
    469
  5. kybertexbox
    Ответов:
    7
    Просмотров:
    603
Загрузка...

Поделиться этой страницей