Как спарсить тизеры http://www.marketgid.com/ возможно?

Тема в разделе "Парсинг конкретных сайтов по запросу (ПЛАТНО)", создана пользователем morfeus, 17 ноя 2012.

  1. morfeus

    morfeus New Member Пользователи

    Регистрация:
    11 апр 2011
    Сообщения:
    12
    Вот к примеру сайт с тизерами Ссылки недоступны для гостей

    На страницу отдаются скриптом... как парсить в таком случае?

    еще желательно картики разбить по тематикам...

    подскажите плиз...
     
  2. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    как-то не проникся я проблемой. вероятно, не понял всей глубины. вам файлы игр нужны, или только тизеры-картинки? с виду сайт не сильно заскриптован. ссылки на файлы игр есть в исходном коде страницы.
    накидайте в раздел "ссылки" категории в таком формате -
    Ссылки недоступны для гостей

    из них в раздел "контент" перейдете к большому числу ссылок вида -
    Ссылки недоступны для гостей

    в любой из этих ссылок есть такой раздел кода:
    <embed id="2swf" width="2px" height="2px" src="Ссылки недоступны для гостей" quality="high" pluginspage="http://www.macromedia.com/go/getflashplayer" type="application/x-shockwave-flash">

    выделенное жирным - это и есть искомый файл игровой, скачиваете файлы эти и все. закономерности найти, по которым можно выделить живые ссылки для вставки в макрос загрузки файлов - думаю, сможете сами.
    как обстоит дело с тизерами и прочими картинками - не смотрел, но ситуация не должна сильно отличаться.

    P.S. а вот ссылка на картинку в исходном коде - тут тоже все просто
    <a href="/flash/128"><img src="Ссылки недоступны для гостей" alt="игры для девочек Белоснежная блондинка" />
    в общем, сайт не страшный, дерзайте.
     
    Последнее редактирование: 18 ноя 2012
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    Еще как решение - парсить категорийные страницы где видны тизеры, для этого
    1. собрать все ссылки категорийны страниц (пример _http://caniplay.ru/girls?page=4)
    2. Указать "повторяющиееся граниы" и перейти в "натройки повторяющихся границ" где использовать макрос GETMORECONTENT для вытягивания игры и описание с названием
    _http://caniplay.ru/girls?page=4

    п.с. проверено на порнотубах :D
     
  4. morfeus

    morfeus New Member Пользователи

    Регистрация:
    11 апр 2011
    Сообщения:
    12
    вся беда что мне нужны тизеры маркетгида, не файлы игр и не картинки, а тизеры отображаются яваскриптом... тизеры можно вообще с любого сайта парснуть...
     
  5. morfeus

    morfeus New Member Пользователи

    Регистрация:
    11 апр 2011
    Сообщения:
    12
    [​IMG] вот тизеры при обновлении страницы они изменяются... т е тизеры можно тянуть с одной страницы... и еще желательно текстовки тизеров так же тянуть... вот как я понимаю <!--noindex--><div id="MarketGidComposite21415"></div><!--/noindex--> код вставки тизеров в страницу...
    их при парсинге видно только если включить скрипты в браузере... а вот как и спарсить чет никак не догоню...

    дело понятное проблема не стандартная, если найти ее решение то имхо жизнь арбитражеров шибко облегчиться =)
     
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    как спросили так и ответили))
    арбитраж и тизеры - обьясните вкратце применение и зачем это?
    п.с. зайдя на сайт незаметил рекламы (потому и не обратил внимание)
     
    Последнее редактирование: 18 ноя 2012
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Смотрите откуда грузятся тизеры (с какого URL) плагином Firefox LiveHTTPHeaders и парсите тизеры по этим ссылкам.
     
  8. morfeus

    morfeus New Member Пользователи

    Регистрация:
    11 апр 2011
    Сообщения:
    12
    Ссылки недоступны для гостей

    долгая история =)


    ссылки на картинки я знаю Ссылки недоступны для гостей

    я уже дернул 1700 картинок, сгенерил ссылки http://imgg.dt00.net/1867/{num}426_vb.jpg и качнул довлоад мастером, к сожелению не смог качнуть их контент довнлоадером... кстати не подскажете как ? не люблю левый софт... ваш роднее =)) но их нужно фильтровать...

    вся вишка парсинга именно с сайта , потому что там картинки (тизеры) показываются согласно тематике, в данном случае игры...

    а как это сделать:confused:

    довлоадер, раз скрипт через браузер проигрывает, почему код не меняет, он же тизеры видит... картинки показывает, а код нет... я конечно догадываюсь, что картинки и код идут с сервака ... но дальше мои познания заканчиваются...
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    мне показало совсем не игры а ту тематику которой занимался (медик/софт/диеты на эти темы искал контени недавно..) из чего можно сделать вывод что показывает релевантно кукисам которые остались в броузере после поиска в поисковиках.
     
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Вот ваш тизер маркетгид Ссылки недоступны для гостей
    а вот гугловский Ссылки недоступны для гостей
     
  11. morfeus

    morfeus New Member Пользователи

    Регистрация:
    11 апр 2011
    Сообщения:
    12
    Спасибо! Думаю из этого уже кое что можно настряпать! =)))

    Знать бы как до этого дорости... ну да ладно имхо в следующий раз в скриптах тизерки копаться буду...
     
  12. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    класс. надо будет взять на вооружение. посмеялся от души.
    извините за оффтоп, просто очень понравилось.
     
  13. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.433
    Адрес:
    Latvia
    В следующий раз, такой же ответ получите ;)
     
  14. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Я же вам написал, что плагин Firefox LiveHTTPHeaders показывает все запросы ;)
     
  15. morfeus

    morfeus New Member Пользователи

    Регистрация:
    11 апр 2011
    Сообщения:
    12
    Да не серчайте так шибко =) гугл действительно тут больший помошник нежели я =)
     
  16. morfeus

    morfeus New Member Пользователи

    Регистрация:
    11 апр 2011
    Сообщения:
    12
    Имхо нужно запомнить установить! Спасибо!
     
  17. morfeus

    morfeus New Member Пользователи

    Регистрация:
    11 апр 2011
    Сообщения:
    12
    Люди добрые! Сколько не пробовался ничего у меня не вышло! Есть умельцы готовые это реализовать за денежку... Welcome в icq 529-81шесть
     

Поделиться этой страницей