Оптимальные настройки прокси

Тема в разделе "Решение проблем с использованием программы", создана пользователем Romanc, 20 авг 2018.

  1. Romanc

    Romanc New Member Пользователи

    Регистрация:
    11 дек 2016
    Сообщения:
    14
    Прошу подсказать, с ходу совершенно непонятно.
    Есть рядовой сайт. Прошел по нему в 10 потоков без прокси - забанили сразу. Хорошо, оператор модемный, модем переставил-ip сменил, страница опять загрузилась. Оставил 2 потока - тоже самое.
    По сгенерированному индексу, нужно проверить 25000 страниц (из которых, какая-то часть будут пустые). Взял 200 элитных прокси на месяц. Ну, думаю, уж теперь хватит уже. Поставил сразу 50 потоков на максимум (даже с ними, работы на пару часов, судя по динамике). Сначала все полетело норм, потом пошли красные полоски, местами, потом все стало краснеть, отсюда вопрос.
    Да, я могу сам, наверное, как то перебирать оптимальный режим. Но у меня нет тысяч прокси для эксперимента, а потому, хочется понимать адекватно, начально, какие настройки я должен выставить, чтобы с вероятностью 99,99% это походило на серфинг, и не словить бан. Важен ли тут юзер-агент, или дело только во временных лагах. Мне не сложно купить 1000 прокси, я могу всю производительность перенести на них, но я не хочу гадать, и заниматься извращениями с выставлением задержек, и чего-то еще, а хочу, по умолчанию (почему бы, это сразу не сделать в программе) иметь работоспособный паттерн.
    Также не вижу настроек, как поступать с пропущенными адресами, как их возвращать назад, какое кол-во раз обрабатывать ошибки.
    Как поступать теперь с частью забаненых прокси, их, как-то же, надо теперь вычищать? И как вообще происходит логика их перестановки в потоках - случайно, последовательно, или еще по какому-то алгоритму (если я поставил 50 потоков, и в общем списки всего 200 прокси заряжено, как понять, как они назначаются, и достаточна ли их величина, при такой скорости).
     
    Последнее редактирование: 20 авг 2018
  2. Romanc

    Romanc New Member Пользователи

    Регистрация:
    11 дек 2016
    Сообщения:
    14
    еще непонятный момент (продолжаю эксперимент, уже на 10 потоках, и все равно, спустя короткое время, в логах ссылки начинают краснеть).
    выставил записывать ссылки незагруженных элементов в файл, как понял, это позволит их повторить отдельно, при повторной загрузке.
    проверяю сейчас все пропуски (красные ссылки). не совпадает. например.
    получили пропуск индекса страниц между 232 и 241 элементом. в сохраненных ссылках, в этом диапазоне, представлены не все пропущенные индексы, а только их большая часть. то есть повторный прогон, не дает мне 100% результата проверки всех ссылок (всего планового объема парсинга). но меня не устраивает результат работы на 97-99% объема. мне нужен 100% прогон.
     
  3. Romanc

    Romanc New Member Пользователи

    Регистрация:
    11 дек 2016
    Сообщения:
    14
    кароче я сдался. уже и юзерагентов нафигачил пачку в настройки, и случайные паузы нарисовал. минуту разгоняется нормально, потом все начинает краснеть. даже при 5 потоках. и это на 200 прокси! какой тогда смысл, ставить 1 поток и ждать неделю.. почему то, в итоговом файле пустые строки еще начались
     
  4. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    272
    Предположу, что Вы что-то не так настраиваете.
    Можете приложить проект?
    Можно личным сообщением
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    3.197
    Бывают такие сайты что многотысячный список прокси не помогает. Например сайт с люстрами (домен русский, не припомню точный) - при парсинге малую скорость отдачи на поток, так если прокся попадалась несколько раз одинаковая в течении парсинга то блокировало. Неудивительно, просто такой источник и надо искать альтернативу.
     
  6. Romanc

    Romanc New Member Пользователи

    Регистрация:
    11 дек 2016
    Сообщения:
    14
    ну это, достаточно странное разведение руками. так или иначе, должен быть какой то механизм определения того, что есть прокси, и в чем конкретные их недостатки, и соответствующая корректировка действия. ведь мой личный айпи не банится. значит, просто нужны хорошие прокси, или какая то альтернатива решения (тор и т.д.).
    а вообще, в идеале, (это автору на заметку), давно нужно создавать парсер, в виде шаринговой сети (облачные вычисления), когда все участники такого процесса, вовлекаются в одну среду доступа к веб объектам, выполняя любой проект настолько успешно, насколько позволяет производительность общей сети, так, как если бы каждый отдельный участник такой системы, просто открывал одну страницу.
     
  7. Romanc

    Romanc New Member Пользователи

    Регистрация:
    11 дек 2016
    Сообщения:
    14
    сам сохраненный проект будет содержать список прокси? просто, я не имею права его засветить, а без них, как понимаю, проверка не несет смысла.
     
  8. Romanc

    Romanc New Member Пользователи

    Регистрация:
    11 дек 2016
    Сообщения:
    14
    вообще перестала работать программа. полный анекдот. ничего не менял, решил спустя сутки прогнать тот же проект. динамики 0 (в логах тишина). собственно, как и поддержки (больше суток как купил обновление, оно так и не принимается).
     
  9. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    272
    Обновлять нужно вручную
     
  10. Romanc

    Romanc New Member Пользователи

    Регистрация:
    11 дек 2016
    Сообщения:
    14
    да это понятно. просто у меня надпись держится неизменной - что нужно проплатить подписку. а я ее уже проплатил. и новые обновления, с определенной даты, не принимаются.
     
  11. inotoxic

    inotoxic Well-Known Member Пользователи

    Регистрация:
    13 сен 2015
    Сообщения:
    272
    По моему, если не ошибаюсь.
    Выписка новых лицензий и апдейтов, а также активация купленных копий на новом обрудовании - обрабатывается в течении 3 рабочих дней
     
    Romanc нравится это.
  12. Romanc

    Romanc New Member Пользователи

    Регистрация:
    11 дек 2016
    Сообщения:
    14
    тогда вопрос снимается. просто, такие вещи, в современном мире, делаются уже на автомате. для этого и подставляется ключевое слово в примечании.
     
  13. Romanc

    Romanc New Member Пользователи

    Регистрация:
    11 дек 2016
    Сообщения:
    14
    ну все. более-менее разобрался. какие то непонятки еще остаются (интересный был момент, неполное заполнение данных, чего при повторном прогоне уже не повторилось), а так все решил сам.
    и все-таки, жаль, что нет рекомендательных опций, в плане мягких и жестких режимов работе, для ориентира. на большой статистике разных проектов, уверен, понимание этого уже есть.
     

Поделиться этой страницей