помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. summon

    summon New Member Пользователи

    Регистрация:
    19 янв 2014
    Сообщения:
    13
    Добрый вечер! Прошу помощи в двух вопросах:
    1) Один из моих проектов создан только для загрузки картинок и после каждого его выполнения также сохраняется файл (например, csv). Есть ли возможность сохранение только изображений, без файла? Сам, к сожалению не нашел, может слепой.
    2) Цель-замена тега <h1>. Есть две следующие конструкции (копирую только начало конструкции, достаточную для понимания):
    Само значение для замены идентично. В первом случае замена успешно происходит, во втором нет. Разница в том, что во втором случае конструкция находится внутри параметра TOSTART макроса GETMORECYCLECONTENT.
    FIRST_REPLACE тоже не помогает. Есть ли решение? Заранее огромное спасибо за помощь!
     
    Последнее редактирование: 30 янв 2014
  2. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Самоуничтожение содержимого результата с помощю макроса замены.(старый проверенный способ)

    Но недавно пявился спец макрос для очистки все что обнято было им:
     
    Последнее редактирование: 30 янв 2014
  3. summon

    summon New Member Пользователи

    Регистрация:
    19 янв 2014
    Сообщения:
    13
    Ура! Спасибо большое!
    Не сразу получилось, оказывается нужно было убрать параметры "чем разделять циклы" в настройке повторяющихся границ.

    За пять минут исправил три разных сообщения, пока дошло )))

    Остался на повестке второй вопрос.
     
    Последнее редактирование: 30 янв 2014
  4. summon

    summon New Member Пользователи

    Регистрация:
    19 янв 2014
    Сообщения:
    13
    Добрый вечер! Прошу помощи:
    Цель-замена тега <h1>. Есть две следующие конструкции (копирую только начало конструкции, достаточную для понимания):
    Само значение для замены идентично. В первом случае замена успешно происходит, во втором нет. Разница в том, что во втором случае конструкция находится внутри параметра TOSTART макроса GETMORECYCLECONTENT.
    FIRST_REPLACE тоже не помогает. Есть ли решение? Заранее огромное спасибо за помощь!
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вам нужно изучать лог в окне предпросмотра парсинга. Тогда поймете ошибку.
    А так, что вы скинули - непонянто. Например, я не знаю, закрыт у вас DFN или нет и так далее...
    Хотя бы файл проекта в таких случаях прикреплять надо. Разбираться в чужих сложных выборочных кусках кода, поверьте, не всегда есть время, надеюсь на понимание =)
    Спасибо, что пишите! Ждем вас снова!
     
  6. summon

    summon New Member Пользователи

    Регистрация:
    19 янв 2014
    Сообщения:
    13
    На свежую голову разобрался в своем коде)
    Спасибо за ответ, впредь буду следовать вашим советам.
     
  7. Vladimir_lg

    Vladimir_lg New Member Пользователи

    Регистрация:
    13 фев 2014
    Сообщения:
    1
    Помогите с решением проблемы. Сайт slando.ua Нужны номера телефонов, они скрыты и показываются только в картинках. возможно ли решение данной задачи?
     
  8. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    У меня сейчас решений по Slando, увы, нет.
     
  9. genesis33

    genesis33 New Member Пользователи

    Регистрация:
    1 июл 2013
    Сообщения:
    14
    Только увидел тему. Уже опубликовал тему с проблемой здесь http://forum.sbfactory.ru/showthread.php?t=1767 Пожалуйста, помогите

    Парсю запчасти с инет-магазина. Конкретная проблема возникла здесь Ссылки недоступны для гостей
    При парсинге АЛЬТЕРНАТИВНЫЕ НОМЕРА необходимо задавать повторяющиеся границы внутри обычной. Теперь в шаблоне вывода можно вывести только <CD_GRAN>; для этих границ и соответственно в CSV нет разделений запятыми!

    Вопрос как можно вывести <CD_CYCLE_GRAN>; если повторяющиеся границы заданы внутри обычной или как добится разделений запятыми в CSV в таком случае.

    Файл проекта Ссылки недоступны для гостей
     
    Последнее редактирование: 2 мар 2014
  10. nicksat

    nicksat New Member Пользователи

    Регистрация:
    11 апр 2013
    Сообщения:
    3
    Подскажите как спарсить данные

    Есть карточка товара Ссылки недоступны для гостей. ua/detskie-koljaski-2-v-1/10739/
    данные закладок (табов) подгружаются через getJSON. Никак не могу понять как их подтягивать для парсинга. Почитав тут темы можно через <GETMORECONTENT> стянуть данные которые подгружаются но потом надо применить автозамену (где полученные коды меняются на норм. буквы) и уже после этого вытащить необходимые данные описания или характеристик. Но как я понимаю это все надо делать тогда в шаблоне вывода через скрипты "Обработки данных" т.е. дописывать получение блока, его автозамену и потом вырезение нужного. Как это все связать не могу понять. Может я что-то пропустил и есть более простой путь ? Кто может глянуть подсказать, направить на путь истенный ?
     
  11. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Ссылки недоступны для гостей для начала.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Или нажать ctrl+h и включить Internet Explorer (DOM)
     
  13. Роман

    Роман New Member Пользователи

    Регистрация:
    25 янв 2014
    Сообщения:
    5
    Добрый вечер.
    Ни как не могу решить проблему.
    Ссылки недоступны для гостей
    Не могу спарсить фотографии главную и дополнительные в нормальном разрешении.
    Главная парситься нормально , остальные получаются мини.
    Подскажите как сделать.
    Спасибо
    Еще нужно спарсить цвета, так что бы каждый цвет был как отдельный товар (я так понимаю и картинки (название цвета на английском) повторяющийся граница и цвет повторяющийся граница).
    С цветом получалось , но туда зализали другие перемены
    Спасибо.
     
  14. PeterPan

    PeterPan New Member Пользователи

    Регистрация:
    28 мар 2014
    Сообщения:
    1
    нужно спарсить Ссылки недоступны для гостей
    со всеми контактными данными... есть таковая возможность или быть может уже готовая спарсенная база? какова стоимость? спасибо
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте, возможность есть, проблем не вижу.
    Закажите настройку для парсинга с этого сайта у ребят Ссылки недоступны для гостей
    Спасибо!
     
  16. IvanBonus

    IvanBonus New Member Пользователи

    Регистрация:
    12 май 2014
    Сообщения:
    5
    Помогите спарсить сайт rc-today.ru

    Помогите спарсить сайт rc-today.ru
    1) В качестве старой цены очень часто вставляется цифра 40, хотя у них на сайте нет такой цены. Как ее исключить?
    2) В качестве изображений парсю url-адреса. /UserFiles/Image/Big/img7315_58229_big.jpg
    Как в эти адреса подставить префикс: Ссылки недоступны для гостей
    Чтобы в итоге получилось вот так:
    Ссылки недоступны для гостей
    ***Мой магазин не поддерживает загрузку изображений из файлов. Поэтому нужны такие адреса.
    3) Не получается спарсить категории. Смотрел видео уроки, но там совсем другая история.

    Спасибо!
     
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    1) Искать ошибку в настройках (мы же не знаем, как вы и что настроили, лучше прикреплять к сообщению ваш файл проекта (меню - файл - сохранить проект));
    2) Добавить в шаблон вывода _http://rc-today.ru туда, куда нужно его добавить;
    3) Ссылки недоступны для гостей (BREADCRUMBS).

    С уважением к вам, Сергей.
     
  18. dfg_forever

    dfg_forever New Member Пользователи

    Регистрация:
    17 окт 2013
    Сообщения:
    13
    Требуется парсить и собирать в одну таблицу цены по карточкам маркета, или вне карточек маркета (зависит от введенной ссылки-запроса или прямой ссылки на карточку).
    В любом случае код вывода у яндекса один для карточек- &grhow=shop на конце.
    и для некарточек- &cvredirect=0 на конце.

    Шаблон вывода CSV вида:

    магазин1 магазин2 магазин3 итд
    [PARAM]товар1 цена цена цена
    [PARAM]товар2 цена цена цена
    [PARAM]товар3 цена цена цена
    [PARAM]товар4 цена цена цена
    итд

    +настройка капчи с антигейтом(но это уже ерунда)

    вот такой проект хочу попросить сделать знатоков.
    Т.к сам делал на ранних версиях CD но запоролся на подстановке цены в нужный столбик с названием магазина.
    Ощущаю что в новой версии такая возможность есть.
     
  19. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Ерунда конечно если ваш ип русский, иначе бан с последующим разбанном только по заявке через форму) Прокси решают.
    На ум сразу приходил использование макроса GETMORECONTENT с подстановкой гриницы
     
  20. dfg_forever

    dfg_forever New Member Пользователи

    Регистрация:
    17 окт 2013
    Сообщения:
    13
    айпи русский динамический, даже если забанит - не беда.
    Можно обратиться к Вам за созданием такого проекта?
     

Поделиться этой страницей