Парсинг закрытых по IP магазинов, скрытые ссылками на товары в баннере, javascript

Тема в разделе "Решение различных задач по парсингу", создана пользователем rusalex, 23 мар 2018.

  1. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    (продолжение предыдущего)

    Для полноты картины, хотел добавить, что при проверке (предпросмотр) одна и та же страница по разному загружаться: один раз с пропуском, один раз может и весь контент загрузить и причем весь правильно!!! Правде не пробовал парсить в файл, может будет все нормально? Спасибо...
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Предоставьте ссылку в текстовом виде (по которой макрос не загружает контент).
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Когда проблемы (пропуски) при предпросмотре. Просто проанализируйте код WEB-документа (двойной клик по элементу лога в нижней части окна предпросмотра результатов парсинга контента) и разберитесь, почему они происходят.
     
    rusalex нравится это.
  4. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Вот ссылка на товар Ссылки недоступны для гостей

    Я смотрел как вы писали лог и видно что страницы каждый раз загружается по разному, может вообще не быть контента, может 2 строки спарсить и 2 пропустить.
    Я смотрел лог - ПЕРЕД ДВУМЯ ЗАГРУЖАЕТСЯ КОНТЕНТ,А ПЕРЕД 2 НЕТ... не пойму почему.

    конфигурация

    <GETMORECONTENT><URL="Ссылки недоступны для гостей"><START="SizeValue{"}:{"}"><STARTCOUNT="0"><END="{"}"><ENDCOUNT="0"><PARAMS="tocsv"></GETMORECONTENT>

    в настройках <GETMORECONTENT> активровал " преобразовывать в одну строку", но все то же

    вот полученные ссылки парсятся

    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    эти нет

    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    Скрины:

    [​IMG]
    [​IMG]




    [​IMG]




    [​IMG]

    Спасибо.
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пусть специалисты по настройке посмотрят проект и найдут причину, я не знаю, в чем проблема, нужно разбираться с проектом.

    • Ссылки недоступны для гостей
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Я кажется понял в чем проблема, с некоторыми прокси GETMORECONTENT не может загрузить контент. Постараюсь разобраться.

    Попробуйте ради эксперимента зарядить в список прокси всего 1 элемент и посмотреть, исправится ли ситуация.
     
    rusalex нравится это.
  7. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Вы оказались правы! Оставил один прокси и все заработало! Супер! Все парсится и в GETMORECONTENT и в цикле [GETMORECYCLECONTENT], причем, через этот макрос я парсю кроме размера, цвет, две цены и загружаю картинки... И парсинг начал быстрее работать даже!

    Проблема была именно в прокси... Я замечал, когда задавал границы парсинга геолокация меняется и назначается не Америка, а Украина,Россия, Франция..., что для этого сайта недопустимо вообще (он закрыт для всех кроме США, даже у Канады свой сайт другой) см. скрин

    [​IMG]


    Хотелось бы спросить:
    1. Вы писали,что прокси должно быть, чем больше тем лучше и я так понимаю при парсинге одного мало?
    3. В рекомендациях вы пишите, что лучше скачивать картинки помощью макроса <DOWNLOADFILE></DOWNLOADFILE> - это принципиально? Дело в том, что у меня вообще так не получается, всегда парсит по одной картинке и ответ

    1 DOWNLOADFILE (Ссылки недоступны для гостей):
    C:\Program Files (x86)\Content Downloader X1\preview_files\files\I86G01WAAD0-A000$2014_G_xxlarge$ (36688 bytes)

    2 DOWNLOADFILE (Ссылки недоступны для гостей):
    C:\Program Files (x86)\Content Downloader X1\preview_files\files\I86G01WAAD0-G7F0$2014_G_xxlarge$ (43409 bytes)

    но с <NIMG> все в порядке.

    Спасибо огромное Вам! С вашей программой даже такой сайт парсится очень легко!
     
    Последнее редактирование: 30 мар 2018
  8. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Вы знаете с одним прокси ссылки парсятся быстрее... Когда было два прокси, ссылки парсились через паузу 3-4 секунды. Теперь загружаются сразу и быстро. Вообще программа вся быстрее работает.

    Большое спасибо!
     
  9. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Здравствуйте Сергей. Проблема решилась, все работает и оооооооочень здорово!!!!

    Проблема была да в прокси, но не связанной с программой и конфигурацией парсинга. Причина в моей неопытности. Я скачивал прокси в интернете для Америки, но в их числе было много других стран, например: 159.65.142.92:3128 - это США, а похожий 159.89.201.219:3128 - это Сингапур Ю. Корея, и таких много (Италия, Франция, Бангладешь, Санк-Питербург....), причем все проходят проверку в программе и ими можно парсить и назначать границы, но как вы видели появляются ошибки (я об этом писал в предыдущем сообщении) Так вот из 86 прокси, прошедших проверку на США , только 19 - это США и Канада, которая также работает. Кстати 19 прокси хватить для парсинга?

    Еще раз вам большое спасибо! Извините если сильно напрягал! Программа супер, 2 недели назад еще не верил, что можно такие сайты парсить! Кстати их никто и не парсит.))))
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Пожалуйста...

    Похвально, что справились с такой сложной задачей.

    Возможно хватит и одного прокси (если сайт не забанит).

    Если забанит, количество прокси подбирается экспериментально. Чем больше - тем лучше.
     
    rusalex нравится это.
  11. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev

    Все работает с 18 прокси и отлично!!! Я протестировал их с помощью "назначения границ парсинага" как на скрине.

    Возможно вам будет полезно! Такая маленька деталь! Наличие именно американских и канадских прокси только касается <GETMORECONTENT>, так как вся другая информация загружается, я так понимаю и с прокси Сингапура, Москвы, Питера, Киева, Бангладеша... т. е те которые проходя проверку в программе.

    Я так понимаю чем больше прокси тем медленнее работает парсинг. (я заметил такую тенденцию)

    Вообще хотел еще раз вам сказать вам спасибо. Рад что потратил правильно деньги и получил гооооораздо больше + удовольствие от реализации, еще вчера "невозможного"!)
     
    Последнее редактирование: 31 мар 2018
    Root и Kreol нравится это.
  12. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Здравствуйте.
    Чем больше прокси то больше времени уходит на проверку. Темболее если доступ к источнику только по определенной геолокации. Но можно парсить сразу после добавления.
    На платных socks4 прокси не замечалось задержек при парсинге магазинов.
     
    rusalex и Root нравится это.
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Сделал возможность смены прокси при повторных попытках отправки запросов в GETMORECONTENT.

    Замените файл Content Downloader.exe (в папке с программой) этим файлом:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
    rusalex нравится это.
  14. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Спасибо за файл, загрузка стала реально быстрее!
    Сорри не сразу увидел, сильно заработался и некогда было зайти сюда!! Еще раз спасибо!

    Вопрос: А когда обновлять программу Content Downloader.exe заново заменять?
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Заменять не нужно.
     
    rusalex нравится это.
  16. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Здравствуйте!
    В программе вы рекомендуете загружать картинки через макрос DOWNLOADFILE
    я загружаю через макрос <NIMG></NIMG> все бы ничего, так пропускаются файлы и не загружаются некоторые
    Конфигурация такая
    [REPLACE({br}|[CSVCS]]<NIMG>[BEFORE_IMG_REPLACE("{get}"|Ссылки недоступны для гостей"Ссылки недоступны для гостей"><START="Images{"}:["><STARTCOUNT="0"><END="]"><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>[/BEFORE_IMG_REPLACE]</NIMG>[/REPLACE]

    Когда ставлю макрос DOWNLOADFILE, то в итоге ошибки в логе и нет загрузки

    1 DOWNLOADFILE (Ссылки недоступны для гостей):
    C:\Program Files (x86)\Content Downloader X1\preview_files\files\X82D03R7KD1-G870-ALT3$2014_G_xxlarge$ (83995 bytes)
    2 DOWNLOADFILE (Ссылки недоступны для гостей):
    C:\Program Files (x86)\Content Downloader X1\preview_files\files\X82D03R7KD1-JBLK-ALT3$2014_G_xxlarge$ (73840 bytes)

    В прайсе выводится одна ссылка и загружается один файл - последний! Как я понимаю ссылки в дну строку и макрос видит последнюю.

    Пробовал через повторяющиеся границы парсинга др. сайты все скачивает, здесь же нет.

    Подскажите этот макрос DOWNLOADFILE будет работать с максросом GETMORECONTENT? Спасибо!
     
    Последнее редактирование: 23 май 2018
  17. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Забыл добавить, что скачивается картинка меньшего размера!
    Для понимания
    Ссылки недоступны для гостей - это большой размер
    Ссылки недоступны для гостей - маленькое - его макрос и скачивает, и из 3-х -4х последнее одно.
    Спасибо.
     
  18. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Здравствуйте!
    Возникли проблемы с картой сайта Ссылки недоступны для гостей
    происходит переадресация на Ссылки недоступны для гостей
    и извиняются...
    так

    МЫ ВЕРНЕМСЯ В БЛИЖАЙШЕЕ ВРЕМЯ!
    Наш сайт в настоящее время недоступен, когда мы делаем обновления, чтобы улучшить ваш опыт. Приносим извинения за неудобства и ценим ваше терпение.

    Команда GUESS

    Подскажите - это временная проблема и нужно подождать или сайт перестроился, нужно искать новые пути парсинга?

    Буду очень признателен! Спасибо!
     
  19. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Достаточно посмотреть в robots.txt Ссылки недоступны для гостей и дальше работать с новой ссылкой на карту сайта.
     
    xLime и rusalex нравится это.
  20. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Премного благодарен! Супер!!! Спасибо!
     
    kagorec нравится это.

Поделиться этой страницей