Парсинг сайта stihi.ru

Тема в разделе "Решения по парсингу популярных сайтов", создана пользователем 1Bot, 20 янв 2015.

  1. 1Bot

    1Bot New Member Пользователи

    Регистрация:
    19 янв 2015
    Сообщения:
    7
    Адрес:
    Днепропетровск
    Парсинг сайта stihi.ru производился в несколько этапов:

    1) Использовался готовый каталог БСЭ - Сводный том - Кириллица
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    для получения ссылок на страницы каталога на определенные буквы каталога

    2) По ссылкам из сводного тома получить ссылки на страницы авторов по каждой букве сводного тома
    приложенный файл проекта stihi_ru_ссылки на авторов.cdp
    ссылки вида
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    3) Загрузка фото авторов стихов с авторских страниц
    приложенный файл проекта stihi_ru_загрузка фото авторов.cdp
    загружаются фото при их наличии
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    4) Загрузка описаний авторских страниц и списка сформированных авторами книг и расположение описаний в индивидуальных папках для каждого автора
    приложенный файл проекта stihi_ru_загрузка описания автора и списка книг.cdp
    ссылки, полученные на страницы авторов из пункта 2 пришлось модифицировать, добавив к ним в конце &book=10000 для получения полного списка книг и количества элементов в каждой из книг
    ссылки получились вида
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    5) Получение ссылок на элементы книг для каждой книги автора и сохранение их в файлы с номерами книг в индивидуальных папках для каждого автора
    пока не готово
    для книг, с количеством элементов более 50 включаются пагинаторы со ссылками на каждые следующие 50 элементов книги, которые необходимо отрабатывать
    ссылки на элементы книг при наличии пагинатора имеют вид
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    при наличии 147 элементов

    6) Обработка файлов со списками элементов книг, сбор книг каждую в свой файл
    пока не готово

    Необходима помощь по последним двум пунктам.
     

    Вложения:

    Последнее редактирование модератором: 20 янв 2015
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Прикрепленный мною файл проекта (меню - файл - загрузить проект) показывает, как собирать ссылки со страниц "пагинации авторов".

    Откройте сканер сайтов (ctrl+7), нажмите кнопку "редактировать/добавить ссылки", вставьте туда ссылки на страницы авторов
    для примера вставьте:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    и нажмите кнопку "закончить редактирование". После этого нажимайте кнопку "начать/продолжить". В итоге будут собраны ссылки на все стихи авторов.

    С уважением к вам, Сергей...
     

    Вложения:

    • links.cdp
      Размер файла:
      26,3 КБ
      Просмотров:
      53
  3. 1Bot

    1Bot New Member Пользователи

    Регистрация:
    19 янв 2015
    Сообщения:
    7
    Адрес:
    Днепропетровск
    Root, спасибо за отклик!

    Вы предложили полуавтоматический путь, но для каждой книги известно количество элементов книг, поэтому генерацию ссылок с пагинаторами можно автоматизировать с помощью php скрипта.
    Для решения вопроса 4) Загрузка описаний авторских страниц и списка сформированных авторами книг и расположение описаний в индивидуальных папках для каждого автора был написан простенький скрипт paginator.php.
    приложенный файл paginator.php и файл проекта stihi_ru_загрузка описания автора и списка книг.cdp

    В скрипт передается логин автора, номер книги и количество элементов в книге, а возвращается список ссылок на страницы с элементами. Также скрипт сохраняет все полученные ссылки в общий файл.
    Полученный файл всех ссылок далее будет использован для этапа 5) Получение ссылок на элементы книг для каждой книги автора и сохранение их в файлы с номерами книг в индивидуальных папках для каждого автора
     

    Вложения:

    Последнее редактирование: 21 янв 2015
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте. Пожалуйста.

    Сканер сайтов САМ пройдет по всей пагинации для каждой ссылки! Так что, думаю, зря вы не приняли мое рабочее решение.
     
  5. 1Bot

    1Bot New Member Пользователи

    Регистрация:
    19 янв 2015
    Сообщения:
    7
    Адрес:
    Днепропетровск
    До конца отработаны все этапы парсинга сайта в автоматическом режиме.

    Парсинг сайта stihi.ru в автоматическом режиме
    ----------------------------------------------

    Парсинг сайта stihi.ru производился в несколько этапов:

    Исходная страница
    Использовался готовый каталог БСЭ - Сводный том - Кириллица
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**

    5) Получение ссылок на элементы книг для каждой книги автора и сохранение сбор книг каждую в свой файл с номерами книг в индивидуальных папках для каждого автора. В качестве списка ссылок используется файл ссылок links.txt, полученный на этапе 4.


    Для каждого описанного выше этапа подготовлены проект для Content Downloader.
     

    Вложения:

  6. 1Bot

    1Bot New Member Пользователи

    Регистрация:
    19 янв 2015
    Сообщения:
    7
    Адрес:
    Днепропетровск
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     

    Вложения:

  7. Alex212434

    Alex212434 New Member Пользователи

    Регистрация:
    19 май 2022
    Сообщения:
    1
    Город:
    Москва

Поделиться этой страницей