Парсинг новых ссылок

Тема в разделе "Парсинг ссылок из XML-карт сайтов", создана пользователем georg, 2 авг 2017.

  1. georg

    georg New Member Пользователи

    Регистрация:
    10 июн 2017
    Сообщения:
    11
    Добрый день!

    когда в sitemap.xml ссылки типа
    <url><loc>ссылка</loc><lastmod>2017-04-13T16:31:13+03:00</lastmod>
    возникает желание парсить по карте сайта с учетом тега <lastmod> только обновленные страницы
    (проверять lastmod отпарсенных раннее страниц и отбрасывать фильтром ссылку если ее дата не поменялась)

    можете помочь советом или поделится проектом, где так реализовано? (для примера)
     
    Последнее редактирование: 2 авг 2017
  2. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.112
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Здравствуйте.

    Нужна доработка.

    По срокам реализации сейчас вас сориентировать не могу.

    С уважением к вам, Сергей.
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    2.786
    как вариант поиск заменой убрать те который без <lastmod>
    приведите пример отрезка кода.
     
  4. georg

    georg New Member Пользователи

    Регистрация:
    10 июн 2017
    Сообщения:
    11
    не очень понял.. практически каждый второй sitemap.xml интернет-магазинов
    ну например ozon.ru/sitemap.xml (его я парсить не собираюсь, просто для примера)
    10-20 тыс строк такого вида как я написал, в каждой есть lastmod с временем обновления ссылки
    <url><loc>ссылка</loc><lastmod>2017-04-13T16:31:13+03:00</lastmod>
    поиск замена сама по себе тут ничего не решит
    нужно при первом парсинге записывать содержимое lastmod для каждой строки (идентификатор строки - между тегам <loc>) в массив (переменную, файл, куда угодно)
    при повторном парсинге сравнивая lastmod текущий и lastmod предыдущего парсинга отсеивать те что без изменений
    как то так
     
  5. georg

    georg New Member Пользователи

    Регистрация:
    10 июн 2017
    Сообщения:
    11
    или вы имели в виду что по этому принципу во вкладке контента можно добавать ссылку на xml файл карты сайта и через повторяющиеся границы + переменные + макросы сохранения в файл сравнить с предыдущими результатами парсинга
     
    Последнее редактирование: 4 авг 2017
  6. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    2.786
    Уже мои рекомендации неактуальны, поскольку вопрос уже поменялся.))
     
  7. Григорий86

    Григорий86 New Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    14
    Здравствуйте. Указываю ссылку на карту sitemap, жму "загрузить карту сайта" ничего не происходит. Но такое только на одном сайте. Через браузер спокойно открывает эту ссылку. В чем может быть проблема?
     
  8. Григорий86

    Григорий86 New Member Пользователи

    Регистрация:
    17 окт 2015
    Сообщения:
    14
    проблема решена) Указал юзерагент яндексбот и заработало)))
     
    kagorec нравится это.
  9. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.112
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Content Downloader X1 версии 11.1.0000231 (20.08.2017)

    - Функция загрузки ссылок из XML-карт сайтов теперь имеет возможность определять новые ссылки по XML-атрибуту lastmod;
    - Действие Флажков "обязательна" (из дополнительных настроек границ парсинга (ctrl+4)) теперь распространяется и на обычные границы парсинга, заданные внутри повторяющихся (циклы с "отмеченными" пустыми границами будут пропускаться);
    - Функция загрузки XML-карт сайтов теперь имеет опцию включения использования библиотеки Windows для отправки запроса;
    - В сканер сайтов добавлена опция учитывания значений [PARAM] при отсеивании дублей ссылок списка выдачи (при парсинге [PARAM] из кода WEB-документов);
    - Несколько других доработок.
     
  10. Root

    Root Администратор Команда форума Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    8.112
    Адрес:
    sbfroot@gmail.com
    Город:
    Краснодар
    Теперь перехожу ко второму вашему вопросу.
     

Поделиться этой страницей