помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    [YOUTUBE]1ionTqYE7f0[/YOUTUBE]
    Ссылки недоступны для гостей
     
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Нашёл много типов куки

    Спасибо за видео, всё наглядно видно, понятно. Получается, я вообще куки не взял из плагина. Нашёл много типов куки, а вот нужного не мог найти.

    Нашёл куки, при которых авторизация в программе происходит,
    они начинаются (как видно на видео) на bb_data=1
    Дальше надо перенастраивать границы парсинга пользуясь только окном с кодом. Найдя нужные коды, и выделив их, после этого всё работает как надо. То всё работает, но без визредактора.

    Спасибо за помощь. Сам бы не догадался отказаться от визуальной части.
     
    Последнее редактирование: 20 янв 2012
  3. andy

    andy New Member Пользователи

    Регистрация:
    21 янв 2012
    Сообщения:
    7
    Привет.
    Есть типичные страницы вида Ссылки недоступны для гостей (радиус кривизны и оптическая сила)
    и Ссылки недоступны для гостей (радиус кривизны, цвет и оптическая сила). Как бы эти все значения из ниспадающих списков забрать? Остальное все получается. Спасибо!
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Повторяющимися границами парсинга.
     
  5. andy

    andy New Member Пользователи

    Регистрация:
    21 янв 2012
    Сообщения:
    7
    Так в том то и дело не пойму как - дайте пару урлов чтоль в каком видеомануале об этом. И исчо. Насколько я понял в проге есть возможность масштабирования (увеличения). У меня проблема иная. 10 строку границ я уже не вижу, еле еле девятую могу заюзать перенося планку с кнопкой Пуск в винде 7 налево, а "Повторяющиеся границы" так как они справа тоже видно наполовину. Нетбук Aser Aspire - максимальное разрешение.
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Давайте перенесем на другой ПК, минимальное разрешение прописано в системных требованиях на странице Ссылки недоступны для гостей
    Системные требования:
    – Запуск от имени администратора (на Vista и Seven);
    – Windows XP, Windows 7, Windows Vista;
    – Internet Explorer Версии 8.0 и выше (желательно последний);
    – Минимальное разрешение экрана 1024*768;
    – Стабильный интернет без прокси в 128 и более кбит/с.
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вот файл проекта, смотрите...
     

    Вложения:

  8. zilon

    zilon New Member Пользователи

    Регистрация:
    24 дек 2011
    Сообщения:
    80
    Помогите пожалуста, настроить поиск/замену для сайта warezmus.ru у меня не получается. Там в коде

    <!--dle_image_begin:http://s018.radikal.ru/i521/1201/40/87448c7ee13e.jpg|--><img src="http://s018.radikal.ru/i521/1201/40/87448c7ee13e.jpg" alt=" Relax FM Музыка Для Чувств (2012)" title=" Relax FM Музыка Для Чувств (2012)" /><!--dle_image_end-->

    а мне нужно только то что жирным выделено, в остальном всё нормально парсится и заменяется, я пробовал тегом {skip} заменить но не получается. А проект я прикрепил...
     

    Вложения:

    • warezmus_ru.cdp
      Размер файла:
      28,5 КБ
      Просмотров:
      3
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Немного не понял, что вам нужно, но, думаю, это...
     

    Вложения:

    • warezmus_ru.cdp
      Размер файла:
      28,2 КБ
      Просмотров:
      7
  10. Fahrenheit

    Fahrenheit New Member Пользователи

    Регистрация:
    23 янв 2012
    Сообщения:
    8
    Доброго времени суток. Есть сайт Ссылки недоступны для гостей. С картинками, Рубрикой и подрубрикой, а так же картинкой всё ясно. Парсим. А вот как быть с характеристиками. Вот одна карточка товара Ссылки недоступны для гостей. А вот другая Ссылки недоступны для гостей как задать границы парсинга? Если хар-ки разные?
     
  11. olyx

    olyx New Member Пользователи

    Регистрация:
    18 янв 2012
    Сообщения:
    3
    попробовал. Не получилось убрать внутренние теги в описаниии. хтмл в текст галку ставил. Не получилось разобраться с картинками. Сохранять на диске не пробовал еще, не получилось, что бы они прописались в csv файл .
    Напомню: речь про dealextreme.com
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    По умолчанию htm to txt не убирает теги img (настройте функцию, удалив оттуда img).
    Для того, чтобы сохранить картинку, задайте для нее границу парсинга, поместите макрос ее границы парсинга в шаблон вывода (CD_GRAN...) и возьмите его в тег <NIMG>...</NIMG>.
     
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Либо задавать одну границу для всех характеристик (помещая их в одну ячейку CSV), либо задать каждую границу для всех характеристик товара. И, если программа не встретит у товара ту или иную характеристику, она просто оставит ячейку пустой.
    Или же парсить каждую рубрику товаров отдельно (где схожие характеристики).
    Других вариантов нет!
     
  14. olyx

    olyx New Member Пользователи

    Регистрация:
    18 янв 2012
    Сообщения:
    3
    речь про теги вида шрифта, возможно я границы начала и конца не правильно выбираю? Вот в качестве примера строка с тегами , которая видна в csv:

    <p>- Tip: 7.4*5.0, 12mm with pin inside, polarity: positive<br /></p><p>- Input: 100-240V, 50-60Hz, Output: 19V, 4.74A, 90W Max<br /></p><p>- 3 prong power Cord excluded<br /></p><p>- Smart LED light power detect<br /></p><p>- Compatible with:<br /></p><p>- HP 2133 Mini-Note PC, 2533t Mobile Thin Client<br /></p><p>- HP Compaq 2230s, 2510p, 2710p, 6510b, 6515b, 6530b, 6535b, 6710b, 6715b, 6720s, 6720t Mobile Thin Client,

    с картинкам непонятность в плане границ, не могу понять где они тут. Обрезал подчеркнутое
    Пример

    <a xmlns="http://www.w3.org/1999/xhtml">
    <img width="140" height="140" border="0" title="Replacement Power Supply AC Adapter for HP Series PPP014L (7.4mm Plug Size) [фото 2]" alt="Replacement Power Supply AC Adapter for HP Series PPP014L (7.4mm Plug Size) [фото 2]" src="//img.dxcdn.com/productimages/sku_23841_2_small.jpg"/>
    <img title="Replacement Power Supply AC Adapter for HP Series PPP014L (7.4mm Plug Size) [большое фото 2]" alt="Replacement Power Supply AC Adapter for HP Series PPP014L (7.4mm Plug Size) [большое фото 2]" src="http://www1.dealextreme.com/productimages/sku_23841_2.jpg" style="width: 600px; height: 600px; border: 5px solid rgb(136, 136, 136);" class="preview2"/>
    </a>
     
    Последнее редактирование: 24 янв 2012
  15. Speedtest

    Speedtest New Member Пользователи

    Регистрация:
    27 янв 2012
    Сообщения:
    2
    объясните пожалуйста, как можно выдрать электронные адреса с этого сайта Ссылки недоступны для гостей или это не возможно?
     
  16. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Там емэйлы закодированы скриптом. Есть варианты как выдрать оттуда емэйлы

    1. Надо сначала попробовать раскодировать, для этого, надо испробовать существующие декодировщики, если получится, тогда парсить будет несложно. Спарсиваешь закодированную часть, а потом раскодируешь её через декодировщик. Если умеешь работать с скриптами,- подключаешь скрипт прямо в CD и получаешь емэйлы сразу. Эту версию я не проверял до конца, но идея такова.

    2. Но, можно пойти другим путём. Например, если использовать FireFox, и сохранить нужные страницы с помощью приложения ScrapBook, тогда емэйлы сохраняются в незакодированном виде. Далее просто,- из всех этих страниц уже парсить в CD только емэйл. ScrapBook-ом пользоваться легко, также легко сохранить десятки, а то и сотни страниц одновременно
     
  17. Speedtest

    Speedtest New Member Пользователи

    Регистрация:
    27 янв 2012
    Сообщения:
    2
    спасибо за ответ, буду пробовать..., во втором варианте возможно ли сохранить все данные со страницы или только мыло и сайты?
     
  18. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Если вручную, то можно частично сохранять,- надо выделить нужную часть страницы и задать сохранение. Но, чем это тебе поможет? Впрочем, смотря как потом собираешься выдирать мэйлы
     
  19. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    реально ли спарсить это?

    Ссылки недоступны для гостей

    он весь на скриптах, что ли?
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Если на скриптах, то используйте плагин Ссылки недоступны для гостей
    С помощью него можно определить ссылки с которых подгружаются данные на сайте.
     

Поделиться этой страницей