помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. olivergreen

    olivergreen New Member Пользователи

    Регистрация:
    28 янв 2013
    Сообщения:
    31
    Извиняюсь, но я наверное не совсем понял как пользоваться этим макросом. В примере ясно, что некие данные можно парсить со статического адреса, на котором нужные данные в строго обозначенном месте (например тайтл).

    Но меня очень интересует как парсить данные например с такого сайта: _http://pussy-king.com/
    Мне надо спарсить кроме страницы с видео и описанием, картинку. Но она отображается не на странице с видео, а на странице категории (и является ссылкой на страницу с видео).

    Подскажите пожалуйста как выдернуть картинку. Если это действительно сложно, скажите за сколько можно сделать конфиг для этой задачи?
    Большое спасибо!
     
  2. olivergreen

    olivergreen New Member Пользователи

    Регистрация:
    28 янв 2013
    Сообщения:
    31
  3. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439

    Вложения:

  4. zhmih

    zhmih New Member Пользователи

    Регистрация:
    17 апр 2013
    Сообщения:
    2
    помогите пожалуйста спарсить сайт Ссылки недоступны для гостей вывод в webasyst shop-script файл csv
     
  5. toperwm

    toperwm New Member Пользователи

    Регистрация:
    19 апр 2013
    Сообщения:
    2
    Как парсить многостраничный пост?

    Некоторые темы форума состоят из нескольких страниц, их количество может быть например, от 2 до 8. Может ли парсер как то определить количество страниц в теме что бы их запарсить.

    Изначально парсер настроен на сбор тем форума, первую страницу темы он спарсит, как его научить парсить и продолжение темы на других страницах ?

    Использую
    <CD_CYCLE_GRAN_ALL!>
    [GETMORECYCLECONTENT]

    Для примера можно использовать этоу тему.
    http://forum.sbfactory.ru/showthread.php?t=2

    Думаю что один из вариантов, через скрипт брать количество страниц указанное на странице и скриптом генерировать ссылки на остальные страницы.
     
    Последнее редактирование: 20 апр 2013
  6. toperwm

    toperwm New Member Пользователи

    Регистрация:
    19 апр 2013
    Сообщения:
    2
    Все гениальное просто. На странице в цикле берем ссылку на следующую страницу. Вуаля, парсится до тех пор, пока есть эта ссылка
     
  7. DiPSti

    DiPSti New Member Пользователи

    Регистрация:
    23 мар 2013
    Сообщения:
    8
    Дайте пожалуйста пример, заинтересовало Ваше решение проблемы
     
  8. farusco.eu

    farusco.eu New Member Пользователи

    Регистрация:
    4 май 2013
    Сообщения:
    2
    Решил написать тут... наверное быстрее будет... Проблема спарсить сайт который генерирует ключи ссылок взависимости от сессии...
    допустим сайт хххх.ру/kakoi to skrip.shtml?execution=дальше идут ключи разной длинны со всеми символами клавиатуры и с регистром...
    Самое интересное что получая этот ключ можно эту ссылку использовать как постоянную.... тоесть если кому то её переслать то она тоже в новой сессии будет перманентной...
    Но проблема для парсера что этих ссылок нигде нет они генерируются автоматом... ему не с чем сравнить.... подскажите что делать
    Как задать шаблон ссылки?
     
  9. farusco.eu

    farusco.eu New Member Пользователи

    Регистрация:
    4 май 2013
    Сообщения:
    2

    Или есть вариант ещё... что надо указать для парсера если допустим страниц 500 и он бы заходил на следующюу и следующую..


    КАк.

    не катит ... ссылка работает как прямая но опускаются другие ссылки перехода на следющую страницу ... если запускается новая сессия...

    Рассказываю подробнее забодался уже искать решение...

    Ссылки недоступны для гостей - главная ссылка
    по ней есть 9 ссылок которые выглядят так Ссылки недоступны для гостей... Ссылки недоступны для гостей.
    Они есть но на них можно попасть только если была открыта главная ссылка
    это кукиесь я так понимаю.... но при передаче кукиес он возвращаяет вообще какую то закодированую страницу...
    Я не могу задать шаблон потому что ссылки разные

    Вообщем сначала надо решить это потом дальше будем думать....


    Всёёёёё решилось... и решением было сканер ссылок...
    Фильтр тупо как то работает
     
    Последнее редактирование: 4 май 2013
  10. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    чтобы нормально переходить на дочерние странички, попробуйте в окошке custom headers прописать основную страницу

    Referer:Ссылки недоступны для гостей
     
  11. Пользователь

    Пользователь New Member Пользователи

    Регистрация:
    13 апр 2013
    Сообщения:
    3
    нужна помощь

    нужна помощь в парсинге сайта citynature .ru, не могу настроить сбор ссылок, не пойму то ли глубину надо как-то правильно задать, то ли другие факторы влияют((. ооочень жду ответа. спасибо заранее, принимаю любую помощь, в т.ч. за денежное вознаграждение.
     
  12. sangas

    sangas New Member Пользователи

    Регистрация:
    23 май 2013
    Сообщения:
    1
    Прошу на платной основе помочь с парсингом определенного сайта.
     
  13. Igor_st

    Igor_st New Member Пользователи

    Регистрация:
    8 фев 2013
    Сообщения:
    47
    Нужна помощь,

    Есть сайт такой структуры

    <td style="text-align: left; vertical-align: top"><h2 style="font-size: 11pt; margin: 0 0 2px 0; font-family: 'Comic Sans MS'"><a href="2009/03/21/kolca.html">Тут название статьи</a></h2></td>
    <td style="text-align: right; vertical-align: top">Раздел: <a href="category/zdorovie/index.html"><b>Категория</b></a></td>

    </tr>
    </table>
    <div id='news-id-1237648915'>ТУТ идет текст</div>

    <a href="2009/03/21/muzhchiny-i-zolotye-kolca.html"><img src="templates/Default/images/punkt.gif" align="absmiddle" border="0"> <strong style="color:#3B84D0; font-size: 10pt "><u>Подробнее</u></strong></a>
    </div>
    <div style="margin-bottom:20px;">
    <table cellpadding="0" cellspacing="0" width="100%">
    <tr>

    И опять три раза подобное повторяется

    Как разбить эти три куска на отдельные статьи и что бы каждой стати подходило свое название.

    Спасибо
     
  14. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    в основном шаблоне <CD_CYCLE_GRAN_1!>
    в настройках повт. границы 1 структура, похожая на эту -
    Код:
    [GRAN2]<br>[GRAN3] 
    DOCSNAMES_[GRAN2].htm
    [NEXTFILE]
    гран2 - заголовок, гран3 - осн. текст
    удачи
     
  15. Extremall

    Extremall New Member Пользователи

    Регистрация:
    2 июл 2013
    Сообщения:
    2
    Помогите спарсить Ссылки недоступны для гостей
    нужна картинка описание артикул и для каждого артикула цена
     
  16. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    А вы хоть пытались или сразу пишите чтоб готовое подали?
    Сайт простой и там особых знаний не требуется как выделить "начало границы" и "конец границы"
    п.с. другое дело если замудрено чтото в коде былобы :)
     
  17. Extremall

    Extremall New Member Пользователи

    Регистрация:
    2 июл 2013
    Сообщения:
    2
    Конечно пытался.
    Когда начинаю указывать границы пишет что надо загрузить браузер и нет предпросмотра страницы
     
  18. maikl

    maikl New Member Пользователи

    Регистрация:
    6 авг 2013
    Сообщения:
    1
    Создание базы синонимов из translate.google.com

    Добрый день. Подскажите пожалуйста, как парсить тут: Ссылки недоступны для гостей.
    Ссылки недоступны для гостей
    Спасибо.
    PS: Не плохо было бы уже организовать парсинг DOM в удобном виде. Потому что прочитав Ссылки недоступны для гостей вперед не сдвинулся
     
    Последнее редактирование: 6 авг 2013
  19. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Мозилла броузер +аддон HTTPFox , при запросах снифим адреса и видно что подгрузка слов идет по
    _http://translate.google.com/translate_a/t?client=t&hl=ru&sl=en&tl=ru&ie=UTF-8&oe=UTF-8&ssel=0&tsel=0&sc=2&q=cheap
     
  20. Verton

    Verton New Member Пользователи

    Регистрация:
    3 сен 2012
    Сообщения:
    3
    Держи проект. Ссылки недоступны для гостей
     

Поделиться этой страницей