помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. esif22

    esif22 New Member Пользователи

    Регистрация:
    22 июл 2014
    Сообщения:
    26
    Все сделал по методичке , но почему то в программе вот такая ссылка
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    при вызове окна предпросмотра прграмма выдает такой текст "Документ, который вы пытаетесь загрузить, пуст (Connection Closed Gracefully)", хотя в браузере все отображается нормально.
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Проверил - работает.

    Выложите, пожалуйста, ваш файл проекта (в программе: главное меню - файл - сохранить проект).

    С уважением к вам, Сергей.
     
  3. esif22

    esif22 New Member Пользователи

    Регистрация:
    22 июл 2014
    Сообщения:
    26
    Вот пожалуйста: Посмотреть вложение yaca_yandex_ru.cdp
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Прекрасно работает. Может вы в бан ушли у Яндекса за частые запросы. Попробуйте передать cookies (кнопка с изображением ключика во вкладке "Контент").
     
  5. esif22

    esif22 New Member Пользователи

    Регистрация:
    22 июл 2014
    Сообщения:
    26
    Странно, с ключиком все работает, передал куки, обратно нажимаю на ссылку вот результат
    HTML:
    http://prntscr.com/7v8mwg
     
  6. esif22

    esif22 New Member Пользователи

    Регистрация:
    22 июл 2014
    Сообщения:
    26
    Обновил программу, теперь все открывает как надо.) Но я не совсем пойму как спарсить не Ссылки недоступны для гостей... а только Ссылки недоступны для гостей в каталоге, т.е. сайты на странице каталога
     
  7. esif22

    esif22 New Member Пользователи

    Регистрация:
    22 июл 2014
    Сообщения:
    26
    все, вроде разобрался
     
  8. dava002

    dava002 Member Пользователи

    Регистрация:
    21 июл 2015
    Сообщения:
    48
    Реально ли спарсить характеристики?
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  9. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Здравствуйте!
    Реально, что именно вас смущает?
     
  10. dava002

    dava002 Member Пользователи

    Регистрация:
    21 июл 2015
    Сообщения:
    48
    Получил вот такой вот код и не пойму как его преобразовать в нормальный вид
    Код:
    "Тип поверхности:
    </span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">газовая*</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Установка:
    </span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">независимая*</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Способ подключения:
    </span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">газовое*</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Дизайн ДОМИНО:
    </span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">нет*</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Цвет панели конфорок:
    </span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">серебристый*</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Рабочая поверхность:
    </span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">эмаль*</span></div>
    </div>
    <div class=""attrRowName""><span>Конфорки</span></div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Всего конфорок:
    </span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">4*шт</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Конфорок газовых:
    </span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">4*шт</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Конфорка-гриль:
    <!--noindex--><div class=""attrHelp""></div>
    <div class=""tooltips""><div class=""inner"">Наличие конфорки гриль. Как правило, это толстая ребристая поверхность или решетка с расположенными снизу нагревательными элементами. Хорошо подходит для приготовления мяса, рыбы, овощей без дополнительного применения масла.</div></div>
    <!--/noindex--></span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">нет*</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Конфорок Двойная корона:
    <!--noindex--><div class=""attrHelp""></div>
    <div class=""tooltips""><div class=""inner"">Горелки «Двойная корона» имеют два контура пламени в отличие от горелок стандартного типа. Такие конфорки обладают большей мощностью по сравнению со стандартными газовыми конфорками, что позволяет значительно ускорить процесс приготовления пищи. На таких конфорках дно посуды прогревается более равномерно, а жидкость закипает очень быстро.</div></div>
    <!--/noindex--></span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">1*шт</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Таймер конфорок:
    <!--noindex--><div class=""attrHelp""></div>
    <div class=""tooltips""><div class=""inner"">Таймер конфорок - это устройство, позволяющее програмировать время приготовления.</div></div>
    <!--/noindex--></span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">нет*</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Защитное отключение конфорок:
    <!--noindex--><div class=""attrHelp""></div>
    <div class=""tooltips""><div class=""inner"">Наличие защитного устройства самоотключения, которое позволяет выключить конфорки или всю варочную панель через определенное время, если с вашей стороны не поступает никаких других команд.</div></div>
    <!--/noindex--></span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">нет*</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Газ-контроль конфорок:
    <!--noindex--><div class=""attrHelp""></div>
    <div class=""tooltips""><div class=""inner"">Газ-контроль – это специальная система безопасности, которой оборудуются варочные панели с газовыми конфорками. Такая система позволяет автоматически прекратить подачу газа, если пламя гаснет по каким-либо причинам.</div></div>
    <!--/noindex--></span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">есть*</span></div>
    </div>
    <div class=""attrRowName""><span>Панель управления</span></div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Переключатели:
    </span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">поворотные*</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Кнопка блокировки работы поверхности:
    <!--noindex--><div class=""attrHelp""></div>
    <div class=""tooltips""><div class=""inner"">Данная функция позволит заблокировать поверхность от случайного включения. Особенно актуально для тех людей у кого есть дети.</div></div>
    <!--/noindex--></span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">нет*</span></div>
    </div>
    <div class=""attrRowName""><span>Функции</span></div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Автоматика закипания:
    <!--noindex--><div class=""attrHelp""></div>
    <div class=""tooltips""><div class=""inner"">Эта функция облегчит и ускорит приготовление блюд. Под конфоркой расположен датчик, который определяет температуру нагрева посуды, и в нужный момент передает команду уменьшить мощность конфорки до температуры поддержания тепла.</div></div>
    <!--/noindex--></span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">нет*</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Индикатор остаточного тепла:
    <!--noindex--><div class=""attrHelp""></div>
    <div class=""tooltips""><div class=""inner"">Во время работы какой-либо из конфорок загорается соответствующий индикатор остаточного тепла, который продолжает гореть и после выключения конфорки до тех пор, пока температура на поверхности конфорки не достигнет безопасного для человека уровня. Еще одно весомое достоинство индикатора остаточного тепла - с его помощью вы легко определите, какая из конфорок еще не остыла, и, следовательно, ее можно использовать для поддержания блюда в нагретом состоянии, что позволяет экономить электроэнергию.</div></div>
    <!--/noindex--></span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">нет*</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Электроподжиг:
    <!--noindex--><div class=""attrHelp""></div>
    <div class=""tooltips""><div class=""inner"">Электроподжиг – вмонтированное в газовую варочную панель устройство зажигания пламени, вырабатывающее электрическую искру.Такой механизм обеспечивает удобное и безопасное поджигание без помощи спичек или зажигалки. Различают два вида электроподжига:      механический, требующий нажатия специальной кнопки для получения искры;     автоматический, зажигающий конфорку при повороте переключателя конфорки.</div></div>
    <!--/noindex--></span><span class=""attrPoints""></span>
    </div>
    <div class=""attrRight""><span class=""attrValue"">есть*</span></div>
    </div>
    <div class=""attrRow"">
    <div class=""attrLeft"">
    <span class=""attrName"">Тип электроподжига:";"C газовой варочной панелью Bosch PBH615B80E можете не бояться, что огонь погаснет, и это вызовет чрезвычайную ситуацию. Модель оснащена термоэлектрической системой газ контроля. Как только пламя тухнет, газ выключается автоматически. В Bosch PBH615B80E есть приятное дополнение для всех любителей восточной кухни – конфорка WOK!"
    
     
  11. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    1) докупаю лицензию ultimat и используя спец макросы для обработки Ссылки недоступны для гостей и Ссылки недоступны для гостей
    2) настраиваем поиск/замену и приводим к нужному виду. Ссылки недоступны для гостей
    3) Вы можете заказать настройку
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Да, вот таким способом Ссылки недоступны для гостей

    С уважением к вам, Сергей.
     
  13. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Приветствую!
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    внизу есть "Показать еще"
    wbapp говорит, что "Для полной функциональности сайта необходимо включить JavaScript! Вот инструкции, как включить JavaScript в вашем браузере"
    и кнопка не работает.
    HttpHeader не помог.
    Подскажите, можно ли с ним, что-то сделать.
     
    Последнее редактирование модератором: 29 июл 2015
  14. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Работает исправно, не обнаружил проблем связанных с кликами.
    проект прилогаю.
     

    Вложения:

  15. serg570

    serg570 New Member Пользователи

    Регистрация:
    21 янв 2014
    Сообщения:
    11
    нужна помощь

    Пишу сначала сюда может кто знает как обойти
    сайт elcats ru
    все сделал но последний уровень каталога имеет защиту по пользователю.( количество запросов)
    я вижу единственный момент менять куки - а вот можно это или нельзя не знаю в автомате ( как смена браузера ) раз запрос 1 куки 2 другие ну итак по кругу для webapp

    кто сталкивался ? сайты elcats и japancats

    в webapp приходиться перебирать 25 пунктов ( это максимум который там видел ) без этого информация не грузится (все через javascript)
    с паузой 2000 - по времени примерно 54 часа -1200 ссылок ( не вариант вообще )

    для экспериментов и чтоб не спрашивать что такое последний уровень 2000 ссылок примера ( вы должны быть авторизованны на сайте ) регистрация там простая и бесплатная
     

    Вложения:

    • primer.csv
      Размер файла:
      166 КБ
      Просмотров:
      3
    Последнее редактирование: 2 авг 2015
  16. KEN

    KEN New Member Пользователи

    Регистрация:
    2 авг 2015
    Сообщения:
    19
    Каким инструментом, а самое главное как можно спарсить цвет и размер.
    как это выглядит на сайте
    Начал делал через повторяющиеся границы, начало и конец указывал <br>, но парсер находит много мусорных повторяющихся границ, что вполне логично и только 2 нужных вхождения
    <br> Черный - L<br>
    <br> Черный - S<br>

    и это правильно, а все потому что идет поиск по коду, находит <br><b>Есть в наличии: </b><br>, потом дальше ищется вхождение в теги <br> и вариант Красный - S уже пропускается, потому что с предыдущим вариантом у них общий тег <br>



    Начал делал через повторяющиеся границы потому что потом это все еще нужно запить в CSV в таком виде

    артикул;название;описание;цена;ссылка;цвет;размер
    где цвет нужно записать с каждой строки и размер для него через запятую

    Красный;S
    Черный;L,M,S,XL


    Зашел в тупик, скорее всего это тот вариант когда спарсить не получится
     
    Последнее редактирование: 5 авг 2015
  17. serg570

    serg570 New Member Пользователи

    Регистрация:
    21 янв 2014
    Сообщения:
    11
    Самое простое
    спарси в последнюю ячейку
    все после "в наличии: </b><br>" - просто может и нет в наличии
    замени <br> допустим на "^"
    выдели ячейку в эксель - текст по столбам - с разделителем "^"
    если нужно через прогу сначала обычные границы нужно задать
     
  18. Cyberika

    Cyberika New Member Пользователи

    Регистрация:
    7 апр 2015
    Сообщения:
    8
    Добрый день, друзья!

    Опыта с CD нет. Изучаю по примерам.

    Пытаюсь получить контент (картинки) с pinterest.com
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Просматривая ролики примеры с яндексом, bing, vk - вроде все понятно и логично.

    Но с пинтерестом не могу сдвинуться. Не вижу ссылок на графику, а через некоторое время и сам CD подвисает (сначала тормозит...).

    Для прогрузки контента проставлял Wait в 30000. Потоки не трогал.

    Был бы признателен за любую помощь.

    P.S.: сложноваты инструмент оказался. Отлично, что видеоролики с обучение комментируются Автором. Спасибо!
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Вроде так (меню - файл - загрузить проект).

    С уважением к вам, Сергей.
     

    Вложения:

  20. Cyberika

    Cyberika New Member Пользователи

    Регистрация:
    7 апр 2015
    Сообщения:
    8
    Огромная Вам благодарность, Сергей!

    Я еще по-вожусь с Вашим примером и, попробую сделать более полным. Выложу здесь.

    Сергей, я немного модифицировал Ваш проект и, поставил листание до следующего экрана в браузере командой.

    Но не могу понять, этот макрос листания страниц в браузере до какого этапа будет листать?

    Проект сохраняет первые X картинок и дальше стоит.
    Когда поставил макрос листания + задержку, то все равно сохраняется столько же картинок.

    Подскажите, где можно посмотреть подобные вещи?
    Как, например, задавать время выполнение цикла или критерии выполнения цикла?

    Заранее Вас благодарю!

    P.S.: хочу поставить его выполнение либо на несколько часов, либо до сохранения 3000 тысяч картинок (если они будут).
     

Поделиться этой страницей