Пропускает описания при парсинге и дублирует наименования некоторых товаров

Тема в разделе "Решение различных задач по парсингу", создана пользователем Ark, 16 мар 2017.

  1. Ark

    Ark New Member Пользователи

    Регистрация:
    14 мар 2017
    Сообщения:
    4
    пациент Ссылки недоступны для гостей
    проект и файл со списком урлов товара прикреплен.

    Проблема
    - пишет в заголовках товара одинаковое название
    - не берет описание с некоторых товаров
    .........
    - картинки товара дублируются (но это вроде не проблема парсинга)
     

    Вложения:

  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Проблемы из-за невнимательности. Пожалуйста, будьте внимательнее.

    2017-03-16_10-27-30.png

    2017-03-16_10-29-24.png

    PS: Ссылки недоступны для гостей

    С уважением к вам, Сергей.
     
  3. Ark

    Ark New Member Пользователи

    Регистрация:
    14 мар 2017
    Сообщения:
    4
    Спасибо, я новичок просто, не судите строго.
    1 - По первому скрину - тут понятно, завтра проверю.
    Сайт у них очень замудренно сделан для меня. Всё очень динамично сделано, много данных меняется при изменении различных параметров.
    2 - По второму скрину - вот товар Ссылки недоступны для гостей , смотрете, заголовок h1 не меняется при смене толщины плиты, а в заголовке описания меняется, поэтому оттуда и беру. При смене параметра урл страницы меняется .html?attribute78=674. И я беру 2 урла Ссылки недоступны для гостей и Ссылки недоступны для гостей по идее должно загрузится 2 товара с разными названиями и ценами.
    PS. Просил их сделать выгрузку товара. Они ответили, что нет возможности. Думаю потому, что у них там все по формулам считается перед выводом информации пользователю. Но должна же быть возможность все равно.
     
    Последнее редактирование: 17 мар 2017
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    2017-03-17_13-01-59.png
     
  5. Ark

    Ark New Member Пользователи

    Регистрация:
    14 мар 2017
    Сообщения:
    4
    Но с названием проблема осталась. Название нужно из описания брать.
    ---
    Смотрите, запустил 2 раза парсинг не меняя настроек. Выдает 2 вот таких результата
    Ссылки недоступны для гостей
    2017-03-20_14-24-37.png
    Как видно из скрина, названия то нормально забираются, то пропускается.
    Как можно это исправить?

    --------пс--------
    изменил на кол-во потоков =1 и пауза между запросами =537мс... жду результата
     
    Последнее редактирование: 20 мар 2017
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте. У меня нет возможности изучать поведение этого сайта. С уважением к вам, Сергей.
     
  7. Ark

    Ark New Member Пользователи

    Регистрация:
    14 мар 2017
    Сообщения:
    4
    Ну я вас не призываю его изучать) Спасибо вам и за то, что сказали. Но это вроде форум, мб другим участником это будет интересно или полезно для будущих пользователей.
     
    Последнее редактирование: 23 мар 2017
    Root и napserious нравится это.

Поделиться этой страницей