Парсинг ленты новостей

Тема в разделе "Решение различных задач по парсингу", создана пользователем QuZ, 6 мар 2014.

  1. QuZ

    QuZ New Member Пользователи

    Регистрация:
    28 янв 2012
    Сообщения:
    32
    Добрый день, Уважаемые форумчане. Возник вопрос с парсингом сайта.
    Имеется страница, на которой располагается
    -Заголовок новости
    -Ссылка на новость
    -Время добавления новости
    -Краткая новость

    Задача.
    -Парсер должен сканировать сайт 2-ва раза в сутки, на предмет появления новых новостей.
    -Парсер должен собрать информацию только со страниц с новыми новостями.

    На странице выведено 10-ть новостей.
    В день добавляется от 100 до 200 новостей. При добавлении новости, получаем, что новости старые передвигаются назад ( Т.е. на первой странице (page=1) уже будут новые новости, на 10-той (page=10) те, что было вчера на первой).

    Список страниц я могу задать через шаблон ( В этом нет проблемы) (Мой вариант решения, но меня в нем не устраивает, что я получаю на выходе только подготовленные ссылки для парсинга уже статей, а не сами статьи, и в данном случае придется городить велосипед) - сканировать через повторяющиеся границы, делаю через регулярку поиск замены время на свой ключ, добавляю его в границы парсинга, делаю его обязательным, забирать ссылки.

    Второй вариант, что я вижу ( НО, он меня тоже не устраивает) - Я через сканер сайта получаю статьи, ставлю опцию в программе - не загружать ранее полученные ссылки и на выходе получаю только новые статьи, т.к. старые были уже добавлены в мой список. - Я бы так и делал, но я не хочу 2-ва раза в день прогонять все страницы, или лишние страницы.

    Мне необходим какой-то стоп сканера сайта, при нахождении уже ранее прочтенной ссылки, система переставала бы собирать ссылки на полные новости.

    Третий вариант - ссылки на полные новости идут подряд, в виде ID, можно этим как-то воспользоваться, но опять же у меня будут прогон по всем существующим и не существующим ссылкам, и далее уже в базе, в которую я собираю полные новости определение что новое, что было уже добавлено.. Этот вариант требует постоянного внесения границ ID ссылок, что требует ручной работы и очень просто будет вычислить такого сборщика, когда он постоянно обращается на несуществующие страницы..

    Может быть Вы видите четвертый вариант, или решение моего вопроса? Спасибо.
     
  2. QuZ

    QuZ New Member Пользователи

    Регистрация:
    28 янв 2012
    Сообщения:
    32
    Вопрос был снят, решил обрабатывать несколько страниц, на поиск новых новостей.. Не красиво, но на первое время, думаю, такой работы скрипта хватит.
    Спасибо.
     
  3. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    ну по другому и быть не может, вы сначала собираете ссылки, а потом получаете статьи, Есть кнопочка AUTO (именно кнопочка, не список) возможно она решит вашу проблему.
    очень подробное описание непонятно чего.
    думаю тогда целесообразнее написать скрипт на php и поставить в cron сайта.
    Никогда не пробовал, но возможно вам поможет добавлять в урл страницы какой-то значек через глобальную поиск/замену. И в фильтре фильтровать, это предположение, возможно и бредовое.
    если база php то пишите скрипт.
    Если что подойдет, пробуйте.
     

Поделиться этой страницей