Парсинг Walmart

Тема в разделе "Решение различных задач по парсингу", создана пользователем kolo555, 11 окт 2019.

  1. kolo555

    kolo555 Member Пользователи

    Регистрация:
    20 мар 2017
    Сообщения:
    87
    Добрый день!
    Хочу спарсить ссылки на товары Ссылки недоступны для гостей, протестировал 2 способа:
    1) Сканером сайтов собрал ссылки на страницы категорий, после этого для сбора ссылок использовал парсинг ссылок товара в повторяющихся границ парсинга, а также во вкладке ссылки. Процесс очень долгий поскольку нужно использовать WBapp и ссылок на категории около 1,6 млн.
    2) Побывал напрямую без WBapp собрать ссылки на страницы товара, но но в список очереди ссылки на товар добавляются очень медленно и сканирование останавливаеться при отсутствии ссылок.

    Подскажите, пожалуйста, как можно более эффективно получить ссылки на товар.
    Проект прикрепляю на стороннем ресурсе, проект очень большой, 156 Мб.
    Ссылки недоступны для гостей
     
  2. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867
    Можно решить на платной основе
     
  3. kolo555

    kolo555 Member Пользователи

    Регистрация:
    20 мар 2017
    Сообщения:
    87
    Цена?
     
  4. Mind

    Mind Well-Known Member Пользователи

    Регистрация:
    8 ноя 2016
    Сообщения:
    190
    А собрать ссылки с карты сайта не вариант?
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
    kolo555 и Root нравится это.
  5. kolo555

    kolo555 Member Пользователи

    Регистрация:
    20 мар 2017
    Сообщения:
    87
    Спасибо!
    я пробовал собрать ссылки с карты сайта, но благодаря Вам понял в чем ошибки сделал.
     
    Root нравится это.
  6. kolo555

    kolo555 Member Пользователи

    Регистрация:
    20 мар 2017
    Сообщения:
    87
    Так же возникла проблема при сборе ссылок, на 6% или 7,5 млн. ссылок что недостаточно памяти.
    Хотел настроить что бы ссылки записывались в файл, но насколько понимаю, записывают только после окончания парсинга.
    Подскажите пожалуйста как собрать 100-120 млн. ссылок с карты сайта в CD или в файл?
     
  7. kolo555

    kolo555 Member Пользователи

    Регистрация:
    20 мар 2017
    Сообщения:
    87
    upload_2019-10-13_22-20-38.png
     
  8. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    867

Поделиться этой страницей