помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Увы, этот сайт никак...
     
  2. comp56

    comp56 New Member Пользователи

    Регистрация:
    25 ноя 2011
    Сообщения:
    18
    а почему так ? что такого в этом сайте что не парсит ?
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Сайт не отвечает на GET-Запросы программы. Менял user agent и hos и referer - увы, никак. У сайта разве нет альтернатив?
     
  4. comp56

    comp56 New Member Пользователи

    Регистрация:
    25 ноя 2011
    Сообщения:
    18
    там несколько страниц... нету...
    так там обічная джумла с модулем перевода... интересно почему оно так?
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    На сервере, видимо, какая-то защита от парсинга.
     
  6. elegance

    elegance New Member Пользователи

    Регистрация:
    29 июл 2011
    Сообщения:
    1
    Подскажите, можно ли спарсить анекдоты с Ссылки недоступны для гостей
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста.
    Меню - файл - загрузить проект (требует последнюю версию программы, так что обновитесь).
     

    Вложения:

  8. dodg140

    dodg140 New Member Пользователи

    Регистрация:
    30 ноя 2011
    Сообщения:
    3
    Здравствуйте.Пытаюсь спарсить Яндекс каталог.Но в границах парсинга немного не разобрался.Как можно настроить границы парсинга в границах.Объясню на примере. Имеем код :
    <ol start="1" class="b-result b-result_numerated b-result_imaged">
    <li class="b-result__item">
    <h3 class="b-result__head"><a href="http://www.make-up.ru/" class="b-result__name b-result__name_top" onmousedown="r(this,'ctya')" target="_blank">"Make-up.ru: мир косметики" </a></h3>
    <div class="b-result__layout">
    <div class="b-result__layout__l"><div class="b-result__screen"><a href="http://www.make-up.ru/" class=" b-result__screen_top" onmousedown="r(this,'ctya')" target="_blank"><img class="b-result__screen__img" alt="" src="http://cards2.yandex.net/cat-get/4106/0650d50cce3711de996dc1afc15d2acd.png"></a></div></div>
    <div class="b-result__layout__r">.
    Границы для парсинга <h3 </h3>.Как можно сделать так,чтобы из кода заключённого в эти тэги парсились только ссылки - границы <a </a>.
    Или есть какой либо другой способ спарсить ссылки из ЯК.Например со страницы Ссылки недоступны для гостей
    И ещё один вопрос.Где можно посмотреть список всех макросов для Content Downloader.Я почему то нигде не ногу его найти.
     
  9. torontino

    torontino New Member Пользователи

    Регистрация:
    19 ноя 2011
    Сообщения:
    8
    All is ok... :)
     
    Последнее редактирование: 1 дек 2011
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Задать повторяющиеся границы парсинга, где начало <h3 class="b-result__head"><a href=", конец "
     
  11. dodg140

    dodg140 New Member Пользователи

    Регистрация:
    30 ноя 2011
    Сообщения:
    3
    Здравствуйте. Можно ли при парсинге сайта при включённой опции "Находить статью автоматически" сделать так,чтобы вконце каждой спарсенной статьи ставился URL на первоисточник или же обязательно надо составлять шаблон вывода и вконце вставлять - Источник:<CD_DOCURL!>.
    Просто вариант с шаблоном не подходит ,так как на каждой странице сайта границы для парсинга разные.
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте, макрос шаблона вывода для "автонахождения" статьи - <CD_AUTO!>. Используйте его в связке с <CD_DOCURL!>.
     
  13. dodg140

    dodg140 New Member Пользователи

    Регистрация:
    30 ноя 2011
    Сообщения:
    3
    Здравствуйте.Спасибо за помощь.Шаблон вывода работает нормально.Но возник ещё один вопрос.Как сделать так,чтобы при парсинге не парсился определённый кусок документа.В частности,имеем текст:

    <p>Стиль Арди - элегантная простота: в молодости актриса славилась любовью к водолазкам, коротким платьям и юбкам-мини, огромным солнцезащитным очками, топам в горизонтальную полоску (а-ля тельняшка) и трикотаж. Франсуазе Арди в любой одежде удавалось выглядеть стильно, шикарно и элегантно; на протяжении многих лет ее имя оставалось синонимом французского стиля.</p>

    <p><img style="margin: 5px auto; vertical-align: middle; display: block;" title="Франсуаза Арди" alt="Франсуаза Арди" src="/cache/wo/wo.static.php?/images/stories/style/french-style-francoise-hardy.jpg" width="500" height="275" /></p>

    <p>Она никогда не выглядела нарочито, ее стиль казался небрежным и естественным, поэтому если вы хотите воссоздать образ Арди, сведите макияж к минимуму (хотя следует заметить, что Арди очень любила стрелки на глазах).</p>

    Как можно сделать так чтобы текст в границах "<p><img style" - "/></p>" не парсился.
     
  14. KHV

    KHV New Member Пользователи

    Регистрация:
    15 мар 2011
    Сообщения:
    23
    попробуйте поиском и заменой
    <p><img{skip}></p>|
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    <p><img style{skip}/></p>|
     
  16. legzzi

    legzzi New Member Пользователи

    Регистрация:
    11 дек 2011
    Сообщения:
    8
    реально ли привести к виду который будет запросто приниматься интернет магазином - т.к. я бьюсь уже неделю, сграбил быстро, а вот потом приведение к виду магазина - это что-то
     
    Последнее редактирование: 11 дек 2011
  17. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Конечно реально:

    Вы должны четко знать как должен выглядеть CSV для импорта в ваш магазин.

    Советы парсингу в CSV-файлы:
    – Для сохранения данных в виде CSV-файлов произведите следующие настройки (все настройки выполняются во вкладке “контент”):
    1) Включите галочку “использовать шаблон вывода” и отредактируйте шаблон вывода так, чтобы макросы были выстроены в одну строку. Разделять макросы следует ; (точкой с запятой – стандартный разделитель столбцов CSV).
    2) Включите галочку “в один файл” и выберите расширение “csv”.
    3) В группе “картинки” снимите галочку “абс. пути” и поставьте галочку “без адресов”.

    Если и сейчас не справитесь, то закажите настройку у нас:
    ICQ: 571-880-051
    Skype: smartbyte_support

    Успехов! Если что обращайтесь с вопросами, поможем!
     
  18. funkylogic

    funkylogic New Member Пользователи

    Регистрация:
    31 июл 2011
    Сообщения:
    1
    Интересно, сработает или нет... ;) а если попробовать вначале загрузить контент сайта с помошью PHP скрипта например.
    А затем уже отправлять в парсер на обработку.
     
  19. comp56

    comp56 New Member Пользователи

    Регистрация:
    25 ноя 2011
    Сообщения:
    18
    хочу спарсить сайт. настроил все. но парсинг парсит только 1 пост в начале странице на все страницах. Паршу в csv или ТХТ. Что делаю не так.
     

    Вложения:

    • maps.cdp
      Размер файла:
      56,3 КБ
      Просмотров:
      3
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Нужно задать повторяющиеся границы парсинга справа (их 5).
    Настроить сейчас не могу, так в данный момент проблемы с интернет и сижу через GPRS.
     

Поделиться этой страницей