Отличие содержимого кода страницы при большом списке UserAgent

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем MaiklWizard, 12 янв 2017.

  1. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    После парсирования ссылок (URL) создается прайс лист. И все бы правильно, кроме кучи мусора, в один момент в фале:
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    И весь мусор до 6286 строки. Далее все нормально.

    Проект приложил. Раньше мусора не было. Как можно поспособствовать чтобы он не лез
     

    Вложения:

    • moyo_ua-2.cdp
      Размер файла:
      46,4 КБ
      Просмотров:
      6
  2. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Даже не смотря в файл, у вас захватывается граница с кучей лишнего, вот и получаете в итоге то что получаете)
    Найдите ссылку которая дает такой результат и внимательно проанализируйте код
     
    Root нравится это.
  3. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Нашел одну из первых своих тем на форуме. Там Кадорес - посоветовал кое что добавить в фильтр ссылок: ССЫЛКА
    После этого, вроде проблема ушла.

    То что затягивается мусор, это понятно. Непонятно по какому адресу, если он собирает толь ко адреса с товаром.
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    ссылки приложите по которым парсите, в проекте нету
     
  5. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    а лучше всего тот прайс, в котором не проводились никакие изменения.
     
  6. MaiklWizard

    MaiklWizard Member Пользователи

    Регистрация:
    26 окт 2015
    Сообщения:
    146
    Адрес:
    Odessa
    Вот он. мусор начинается чуть ниже, с 300й строки и заканчивается на 6000й
     

    Вложения:

  7. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    пересмотрел ссылки, все нормально. По всей видимости это просто глюк из-за количества потоков(опишу дальше), ну это лично мое мнение(потому что, для какого либо исправления такой проблемы, она хотя бы должна быть систематической и прослеживаться много раз) А так как это единичный случай, то подразумевается просто сбой, который мог быть вызван слишком большим количеством факторов, которые вообще не относятся к программе, а больше относятся к вашему компьютеру, и другим программам.
    Просто уменьшите количество потоков до 2-5 и такой проблемы не должно повториться.
    Если это будет систематическая проблема, тогда будем уже разбираться, но нужно будет провести данный тест раз 5-10 и проверить все факторы.
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Программа - не человек и ошибаться не может.

    Посмотрел ваш проект и увидел кучу User Agent:
    2017-01-13_08-52-16.png

    Оставьте один! Так как с некоторыми из них сайт может отдавать разный код!

    Также сайт может отдавать данные "по-разному" из-за большого количества запросов в секунду. Попробуйте парсить, как порекомендовали, в 1-5 потоков.

    Чтобы понять, какие ссылки "дают сбой", достаточно нажать ctrl+l и в логе посмотреть элементы с большим значением столбца лога count.

    С уважением к вам, Сергей.
     
    MaiklWizard и Kreol нравится это.

Поделиться этой страницей