При использовании списка прокси серверов не загружает часть WEB документов

Тема в разделе "Прокси для парсинга", создана пользователем Grushe, 31 янв 2020.

Метки:
  1. Grushe

    Grushe Member Пользователи

    Регистрация:
    10 апр 2014
    Сообщения:
    45
    Добрый день!

    В парсинге с сайта используются бесплатные прокси, потому что сайт блокирует парсинг. Но некоторые прокси пропускают парсинг и некоторые страницы не скачиваются. Банально, из-за антивируса, например или недоступности прокси. В проекте используется сбор характеристик по столбцам через DYNAMICVALUES.

    Так вот, как решить проблему, допарсинга в тот же файл характеристик в те же колонки? Ведь если делать новый парсинг недостающих страниц как обычно, характеристики будут содавать новые колонки в другом порядке, и, просто соединение двух файлов в блокноте не прокатит.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    2020-01-31_11-45-53.png
     
  3. Grushe

    Grushe Member Пользователи

    Регистрация:
    10 апр 2014
    Сообщения:
    45
    Стояло 10. В процентном соотношении было пропусков около 20%.
    Но все же, можно ли докачивать в тот же файл с использованием DYNAMICVALUES?
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пока нет.

    Увеличивайте попытки загрузки, пока не будет пропусков.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Или добавьте в окно Ctrl+6 макросы:
    Код:
    [ADDURL]<CD_DOCURL!>[/ADDURL]
    Эти макросы будут добавлять URL не-загруженного документа в конец списка ссылок.

    Но все же правильнее увеличить количество попыток загрузки WEB-документа.
     
  6. Grushe

    Grushe Member Пользователи

    Регистрация:
    10 апр 2014
    Сообщения:
    45
    Складывается ощущение, что повторная попытка происходит с тем же прокси. Это так? А можно, чтобы попытка была с помощью следующего прокси адреса?
    Потому что я увеличил число попыток до 50 и все равно пропуски.
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Естественно, следующая попытка загрузки выполняется со следующим прокси из списка (это видно в логе окна предпросмотра результатов парсинга). Так получается, что все 50 попыток у вас проходят неудачно для некоторых документов.

    Со слов суть проблемы диагностировать не могу.

    Проект нужно ваш тестировать с вашим списком прокси. Можете выложить под хайдом, чтобы видел только я.
     
  8. Reset

    Reset Active Member Пользователи

    Регистрация:
    16 дек 2013
    Сообщения:
    114
    Я и до 1000 поднимал, бесплатные прокси они такие.
     
    Root нравится это.

Поделиться этой страницей