Парсинг закрытых по IP магазинов, скрытые ссылками на товары в баннере, javascript

Тема в разделе "Решение различных задач по парсингу", создана пользователем rusalex, 23 мар 2018.

  1. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Здравствуйте!
    В который раз хочу сказать Спасибо за программу! Просто Супер!
    Не могу выполнить некоторые задачи на сайтах такого типа Ссылки недоступны для гостей товары видны только для покупателей США, все остальные в Европе и на территории бывшего СНГ видят вот это сайт Ссылки недоступны для гостей Через проски смог выйти в программе на него, настроил парсер контента, загружаются картинки (которые не имеют типа разрешения, но все в порядке...) контент и все такое. Но, есть несколько существенных проблем/ Сразу скажу, что у купил лицензию "Стандарт" ( на случай всех плагинов хватает?)
    1. Сбор ссылок в категориях - все они не видны в html, так как я подозреваю открываются в баннере и находятся в скриптах. Их только можно увидеть в "Инструментах разработчика" в браузере. На первом скрине (из Хрома) виден весь путь к ссылке на товар в категории (последняя внизу)
    [​IMG]
    Как добраться в программе спарсить ссылки? Каким способом? Сканер сайта вроде бы что-то выдает, но это все ссылки Европейские и возможно прокси здесь не срабатывают (происходит редирект на европейскую версию)
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    и мусора чуть чуть ссылок 50 всего... Но и все

    Читал эту статью Ссылки недоступны для гостей и нашел "6) Ссылки в коде сайта представлены не в стандартных HTML-тегах <a>, а в каких-то других (или в скриптах); Ответ: 6) Настроить функцию поиска ссылок нужным для данного сайта образом (кнопка «FIND» в сканере сайтов);

    нашел кнопку, но как с ней работаь нигде нет?

    2. Как парсить цвет и размеры товаров, которые подгружаются в скриптах через аякс? Внешне ничего не меняется.
    В html это так выглядит (я его разделил условно на части)

    <div class="productInformation">
    _______________________________________________
    <div class="visible-xs">
    <div class="labeltitle title-and-subheader text-center">
    <span class="selectedColor">jet black</span> - это выбранный на странице цвет
    </div>
    </div>
    _____________________________________________________
    - далее идут опции для выбора цветов (в том числе и выбранного) - ссылки на мини картинки цвета товара.

    <div class="colorbox text-center">
    <ul class="colors inline">
    <li>
    <a href="Ссылки недоступны для гостей">
    <img alt="sandshell" id="Q74R11R1SN0-G176" src="data:image/gif;base64,R0lGODlhAQABAID/AMDAwAAAACH5BAEAAAAALAAAAAABAAEAQAICRAEAOw==" data-blzsrc="Ссылки недоступны для гостей" />
    </a>
    </li>
    <li>
    <a href="Ссылки недоступны для гостей">
    <img alt="jet black" id="Q74R11R1SN0-JBLK" src="data:image/gif;base64,R0lGODlhAQABAID/AMDAwAAAACH5BAEAAAAALAAAAAABAAEAQAICRAEAOw==" data-blzsrc="Ссылки недоступны для гостей" />
    </a>
    </li>
    <li>
    <a href="Ссылки недоступны для гостей">
    <img alt="grape leaf" id="Q74R11R1SN0-GRLF" src="data:image/gif;base64,R0lGODlhAQABAID/AMDAwAAAACH5BAEAAAAALAAAAAABAAEAQAICRAEAOw==" data-blzsrc="Ссылки недоступны для гостей" />
    </a>
    </li>
    </ul>
    </div>
    <div class="hidden-xs">
    ____________________________________________________

    <div class="labeltitle title-and-subheader text-center">
    <span class="selectedColor">jet black</span> - Опции размера выбранного цвета!
    </div>
    </div>
    <div class="sizebox text-center">
    <div class="sizeLabel hidden-lg visible-xs">
    <h3 class="title-and-subheader">Select Your Size</h3>
    </div>
    <ul class="sizes inline paragraph-text" id="sizeSelectionList">
    <li>
    <a href="Ссылки недоступны для гостей" id="900362038" data-skucode="13531315">xs</a>
    </li>
    <li>
    <a href="Ссылки недоступны для гостей" id="900362217" data-skucode="13531319">m</a>
    </li>
    <li>
    <a href="Ссылки недоступны для гостей" id="900362060" data-skucode="13531321">l</a>
    </li>
    <li>
    <a href="Ссылки недоступны для гостей" id="900362111" data-skucode="13531323">xl</a>
    </li>
    <li>
    <a href="Ссылки недоступны для гостей" id="900361985" data-skucode="13531317">s</a>
    </li>
    </ul>
    - При выборе опции цвета, меняется и опции размеров

    Вот скрин товара

    [​IMG]

    Все сделал как в статье Ссылки недоступны для гостей и использую для выбора размеров макрос [GETMORECYCLECONTENT]Ссылки недоступны для гостей[START]SizeValue":"[/START][END]"[/END][TOSTART][/TOSTART][TOEND][/TOEND][PARAMS][/PARAMS][SEP];[/SEP][/GETMORECYCLECONTENT] , где <CD_GRAN_2!> - это общий sku товара, а &color=<CD_GRAN_8!> - это sku опции цвета (который состоит из первыйи+дополнение), так вот это sku опции цвета может быть на странице до 5 шт и более. У каждого цвета свои размеры.
    Я также зафиксировал sku опции цвета в повторяющихся границах <CD_CYCLE_GRAN_5!>, но когда подставляю так [GETMORECYCLECONTENT]Ссылки недоступны для гостей[START]SizeValue":"[/START][END]"[/END][TOSTART][/TOSTART][TOEND][/TOEND][PARAMS][/PARAMS][SEP];[/SEP][/GETMORECYCLECONTENT] не парсится и в ячейке ничего нет! Понимаю, что логика неправильная, но немогу понять или не знаю как это сделать? Как мне спарсить все опции товара: все цвета и размеры, меняя sku опции цвета? Также картинки каждого цвета и цены, которые меняются? Подозреваю, что нужно имитировать нажатие на опцию с помощью Ссылки недоступны для гостей? Но его у меня нет.

    Также у каждого размера
    Буду очень признателен за помощь! Спасибо

    Также есть еще один небольшой вопросик, может есть еще информация, а лучше видея.. я не нашел!

    3. Спарсить опции в нижеследующую строку? Смотрел эту статью Ссылки недоступны для гостей но мало информации, я не понял как вызвать верхнее окно, как на скрине? Куда подставлять макрос [SCVLB]?

    Использую для входа в браузере Browsec VPN - Free and Unlimited VPN - повторюсь, что показывает только при выборе Америки!

    Таке я не айтишник и могу некоторые термины не знать !. если моно попроще,а если есть видеопримеры, так это вообще лучше всего! Еще раз спасибо!
     
    Последнее редактирование: 23 мар 2018
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    С сайта удалось собрать 8791 товар (проекты прикреплены)


    2018-03-23_02-01-10.png

    2018-03-23_02-03-27.png

    2018-03-23_02-12-11.png

    2018-03-23_02-10-51.png
     

    Вложения:

    Ogenrix и rusalex нравится это.
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    При выборе опций происходят запросы на ссылки типа:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
    rusalex нравится это.
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Проект реально сложный и трудозатратный. Я не могу вам его целиком создать, нужно обратиться к специалистам по настройке
    • Ссылки недоступны для гостей
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Окно, как на скриншоте вызывается хоткеем shift+ctrl+5 (или общее окно настройки повторяющихся границ парсинга - ctrl+5)
     
    rusalex нравится это.
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Перезапустите программу...
     
    rusalex нравится это.
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Если возникнут еще вопросы - обращайтесь.
     
  8. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev

    Премного благодарен Вам! Сразу скажу, что для меня очень важно самому понть это и научиться делать. Я очень многое уже сделал (теперь с вашей помощью). Есть еще несколько вопросов (я их в кажом вашем ответе напишу)

    Здесь по поводу парсинга ссылок.
    1. на сайте множество дублей сылок, от 3 до 5 на один товар, т.е.
    Например категориях
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    один и тот же товар будет иметь разные ссылки типа

    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей

    Я смогу их отфильтровать и с помощью ваших файлов я загружаю ссылки, но хотелось бы спросить
    1. вы в ручном режиме (crl+d) добавляете к ссылкам ?filter=true&f_Price=0-30&page=99&sort=relevance (у меня автоматически не получилось)
    2 в ?filter=true&f_Price=0-30&page=99&sort=relevance - 99 это переменчивая величина, которая автоматически меняется (как в маске телефона при добавлении телефона в форму связи?)
    3. <a href=\"{get}\" - это для поиска замены в фильтрах |{get}|{get}?filter=true&f_Price=0-30&page=99&sort=relevance я так понимаю для автоматического добавления к урлам категорий?

    Я так понимаю дл парсинга ссылок вана настройка gues.wbapp? Дело в том что у этого бренда есть и др. магазины типа Ссылки недоступны для гостей Ссылки недоступны для гостей... , которые я также хочу парсить. вопрос есть где-то пояснение принципа создания gues.wbapp Дело в том, что у меня с вашими настройками эти, друге сайте не находят ссылки и даже катру сайта не загружают. Я так понимаю от неправильно написанного gues.wbapp?

    Спасибо.
     
  9. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Только сейчас все понял, Премного благодарен Вам!
     
    Root нравится это.
  10. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Я уже нашел эту конфигурацию и парсил через нее данные с помощью [GETMORECYCLECONTENT] в таком варинте.

    [GETMORECYCLECONTENT]Ссылки недоступны для гостей[START]SizeValue":"[/START][END]"[/END][TOSTART][/TOSTART][TOEND][/TOEND][PARAMS][/PARAMS][SEP];[/SEP][/GETMORECYCLECONTENT]

    где
    1. <CD_GRAN_2!> - это общий sku товара,
    2. &color=<CD_GRAN_8!> - это sku опции цвета, при выборе которых меняются картинки и размеры.
    В такой конфигурации все загружается отлично, могу любую опцию и фото спарсить, но &color=<CD_GRAN_8!> нужно менять. Я подставил в "повторяющихся границах" <CD_CYCLE_GRAN_5!>, так

    [GETMORECYCLECONTENT]Ссылки недоступны для гостей[START]SizeValue":"[/START][END]"[/END][TOSTART][/TOSTART][TOEND][/TOEND][PARAMS][/PARAMS][SEP];[/SEP][/GETMORECYCLECONTENT]

    и здеь полные тормоза, не ничего не парсится и не знаю как выйти.

    1. Может вы подскажите свои уроки по этой теме не нашел?
    2. Подозреваю, что нужно имитировать клик выбора цвета или как-то можно сделать иначе, чтобы по очереди менялся sku опции цвета &color=<CD_GRAN_8!>?
    Все остальное я уже сделал и парсится сайт. Тормоз у меня вот в этом и предыдущем пункте.
    Спасибо.
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Пожалуйста!

    1) Такие дубли ссылок можно фильтровать инструментом расширенного удаления дублей ссылок

    2018-03-23_19-28-56.png

    2) Как я понял, это величина постоянная. Если параметр page=99, то выводятся все ссылки данной категории

    3) Да, я так добавлял хвостовую часть со ссылкой к урлам категорий при их парсинге (сейчас это правило поиск-замены закомментировано символом | в начале строки)

    4) Проект guess.wbapp, насколько я помню, ничего не делает, я просто смотрел, как сайт будет вести себя с прокси в WBApp
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    При такой конструкции ...&color=<CD_CYCLE_GRAN_5!>... вы в параметр color вставляете ВСЕ циклы повторяющихся границ 5. Это не верно!

    Прочтите красный текст тут Ссылки недоступны для гостей
     
  14. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Plhfdcndeqnt/
    Здравствуйте, очень благодарен за помощь, ответы и участие в мой проблеме!
    Я уже завершил настройку, немогу только решить одну проблему!

    В такой конфигурацию

    [GETMORECYCLECONTENT]Ссылки недоступны для гостей[START]SizeValue":"[/START][END]"[/END][TOSTART][/TOSTART][TOEND][/TOEND][PARAMS][/PARAMS][SEP];[/SEP][/GETMORECYCLECONTENT] где я отдельно создал на каждый вариант опцию свой sku (<CD_GRAN_5!>,<CD_GRAN_6!> и <CD_GRAN_7!>), для вывода переменной я использую "макрос случайного ввода текста", но при выводе опции не совпадают, т.е. появляются в "случайном пордке". Будьте любезны скажите с помощью какого макроса я могу выводить <CD_GRAN_5!>,<CD_GRAN_6!> и <CD_GRAN_7!> в таком порядке. (в прошлом сообщении я спрашивал по повобу макроса повторяющихся границ в
    том месте и из вашего ответа я понял это невозможно?)
     
    Последнее редактирование: 27 мар 2018
  15. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Вот скрин части парсинга. Правильная логика?
    [​IMG]
     
  16. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Я не понимаю, что требуется.
     
  17. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Подскажите чем заменить "макрос случайного ввода текста" , чтобы выводились не в случайном порядке Ссылки недоступны для гостей, а по очереди, как в конфигурации?

    Вот здесь: [GETMORECYCLECONTENT]Ссылки недоступны для гостей[START]SizeValue":"[/START][END]"[/END][TOSTART][/TOSTART][TOEND][/TOEND][PARAMS][/PARAMS][SEP];[/SEP][/GETMORECYCLECONTENT]

    Я столько уже вариантов перепробовал! Спасибо.
     
  18. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Задайте с помощью макроса [VAR] три переменных с границами парсинга и именами 1, 2 и 3 Ссылки недоступны для гостей

    Выводите эти переменные в повторяющихся границах с помощью [CC] в качестве имени переменной:
    2018-03-28_03-26-56.png
     
  19. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    Благодарен Вам за ответ и затраченное время. Я наверно неверно формулирую свой вопрос, потому и немогу получить ответ, извините.
    Я перебрал множество конфигураций и думаю остановился на верной. Нужен Ваш квалифицированный ответ, прошу еще немного терпения и внимание к моему проекту.
    Такая конфигурация

    <GETMORECONTENT><URL="Ссылки недоступны для гостей"><START="SizeValue{"}:{"}"><STARTCOUNT="0"><END="{"}"><ENDCOUNT="0"><PARAMS=""></GETMORECONTENT>

    которая находится в "Повторяющейся границы парсинга №1" на скрине видны проблемы (ошибки)

    [​IMG]
    [​IMG]

    где видно, что ссылки меняются , но контент не загружается (этот код я вставлял в цикл [GETMORECYCLECONTENT] но не було видно логики, теперь ошибки наглядно). Почему? Что нужно для этого сделать? Спасибо.
     
  20. rusalex

    rusalex Active Member Пользователи

    Регистрация:
    22 мар 2018
    Сообщения:
    133
    Город:
    Kiev
    (дополнение предыдущего)

    Еще хотел добавить, что на разных страницах, контент загружается по разному:
    - то с пропуском второй строчки из пяти (она пустая),
    - то в трех, только первая загружается две пустые...
    - то в восьми строчках вторая пропускается а остальные заполняются....
    Может нужно настройки парсинга подкорректировать? Уменьшить потоки? Спасибо
     
    Последнее редактирование: 29 мар 2018

Поделиться этой страницей