CD + прокси (ошибки + предложения).

Тема в разделе "Решение проблем с использованием программы", создана пользователем Seomanchik, 7 авг 2013.

  1. Seomanchik

    Seomanchik New Member Пользователи

    Регистрация:
    20 июн 2013
    Сообщения:
    9
    При парсинге сайта, используя http(s) прокси, прочеканные в CD, возникают следующие ошибки:

    файл не сохранён: результирующий документ оказался пустым
    файл не сохранён: программе не удалось загрузить страницу

    Около половины ссылок для парсинга с такими ошибками. Страницы по данным ссылкам нормально открываются в браузере, имеют в коде заданные границы парсинга, при последующем парсинге через прокси - могут и спарситься нормально.

    При парсинге без прокси - ошибок не возникало.
    Отсюда делаю вывод: если при парсинге страницы попадается нерабочий/заблокированный сайтом-донором прокси, то страница не может спарситься и выдаётся одна из вышеуказанных ошибок. Повторной попытки спарсить страницу с заменой прокси не происходит.

    Предложение:
    - парсить каждую ссылку "n" количество раз подряд (задаётся пользователем через интерфейс), меняя при этом прокси;
    - прокси, при использовании которых возникло "n" количество ошибок, автоматом убирать из списка рабочих прокси, используемых программой, и сохранять в отдельный файл.
    - ссылки, по которым после заданного "n" количества раз со сменой прокси, не удалось спарсить контент - сохранять в файл, как незагруженные.

    Если у меня сложилось неправильное представление о работе программы, прошу не пинать, а разъяснить по возможности.
     
    Последнее редактирование: 7 авг 2013
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.431
    Адрес:
    Latvia
    Кнопка "дополнительно" -> пункт "пытаться повторно загружать элементы"
    очень полезная функция как раз под ваш случай, если первым подходом были неудачные попытки то эти же ссылки еще раз будут к парсингу добавлены. там очень умно продумано. Спасибо разработчику.

    [​IMG]
     
  3. Seomanchik

    Seomanchik New Member Пользователи

    Регистрация:
    20 июн 2013
    Сообщения:
    9
    Этот пункт как-то странно работает (по моим наблюдениям - далеко не все неудачные ссылки добавляются ещё раз в конец списка). И добавляются они 1 раз или несколько?
     
  4. shtrek

    shtrek New Member Пользователи

    Регистрация:
    2 фев 2014
    Сообщения:
    5
    Подскажите, будьте любезны)
    Существует ли возможность вЫключить прокси исключительно для <php-script> макросов?
    Помимо того, что мой кустарный скрипт отказывается работать с включённым прокси, есть ещё причина для существования отдельного тумблера: скорость. При отправке на собственный скрипт, анонимность ни к чему, а вот оперативность работы парсера страдает.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте, спасибо за сообщение, добавим эту опцию с выходом следующего обновления. Прошу подождать до 3 суток.
    Спасибо!
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Уже сделал, если хотите потестировать - напишите, пожалуйста, мне в Skype.
     

Поделиться этой страницей