Парсинг сайта с JAVAскриптом на каждую отдельную характеристику

Тема в разделе "Решение различных задач по парсингу", создана пользователем kostenko888, 17 ноя 2015.

  1. kostenko888

    kostenko888 New Member Пользователи

    Регистрация:
    12 сен 2015
    Сообщения:
    6
    Адрес:
    Россия
    Добрый день!
    Задача - спарсить Ссылки недоступны для гостей.

    Рассматриваемая ссылка Ссылки недоступны для гостей

    Проблема каждая картинка с информацией открывается в ява-скрипте + с одной страницы нужно вытащить эти данные в разные (в будущем) товары.
    + в каждой карточке кроме картинки еще есть информация.

    у меня на сегодня пока вот такой код
    <NIMG>[GETMORECYCLECONTENT]Ссылки недоступны для гостей[START]src="[/START][END]"[/END][TOSTART][/TOSTART][TOEND][/TOEND][PARAMS][/PARAMS][SEP]{br}[/SEP][/GETMORECYCLECONTENT]</NIMG>
    [CSVCS]
    <CD_CYCLE_GRAN_1!>

    Но он подтягивает, хоть убей, все равно одну и ту же картинку.

    Помогите, пожалуйста. Если у кого-то получиться настроить парсинг полностью - могу чуть-чуть кинуть денежки. Расценок не знаю.

    нужно вытащить все товары с сайта в следующем формате
    Тип товара, например, обои
    Бренд, например, Bruce Winton
    Коллекция, например, Langdale
    Название (по артикулу)
    Картинку в исходном размере
    Описание с карточки
     
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Код:
    http://files.decaro.ru/BRUCE%20WINTON/Langdale/VL72604_PRE.JPG Малая картика
    http://files.decaro.ru/BRUCE%20WINTON/Langdale/VL72604.JPG Большая картинка
    Уберите из ссылки _PRE
    Но если пдробнее разобрать:
    В коде страницы берем ссылку которая формирует для каждого варианта отдельную всплывающую страницу
    Код:
    var link = "site.aspx?IID="+gid+"&SECTIONID="+sid+"&STID=1919130&CCC="+cache;
    От нее берем STID 1919130 , остальные переменные заполнить можно в цикле повт.границ (&CCC="+cache не нужно)

    SECTIONID берем от ссылки страницы.

    Далее
    Есть цикл повт.границы с кодом
    Код:
    <div class="branditem"><a href="javascript:;"><img alt="" gid="2754283" src="http://files.decaro.ru/BRUCE WINTON/Langdale/VL72608_PRE.JPG"></a><p><a href="javascript:;" class="bia" gid="2754283">VL72608</a></p></div>
    Берем gid 2754283 и формируем ссылку такого вида
    Ссылки недоступны для гостей2754283&SECTIONID=2754077&STID=1919130

    Эту ссылку в готовом виде подключаем к GETMORECONTENT столько раз в цикле сколько надо выбрать информаций (Артикул, размеры и тд.)

    Что непонятно, спрашивайте.)
     
    Последнее редактирование: 17 ноя 2015
  3. kostenko888

    kostenko888 New Member Пользователи

    Регистрация:
    12 сен 2015
    Сообщения:
    6
    Адрес:
    Россия
    Подскажите, как удалить часть _PRE из названия картинки?
     
  4. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    _PRE|
    используйте макросы замены, FIRST_REPLACE например
     

Поделиться этой страницей