А дальше?

Discussion in 'Разное' started by ergoline, Dec 30, 2011.

  1. ergoline

    ergoline New Member Пользователи

    Joined:
    Sep 15, 2011
    Messages:
    49
    Location:
    UA
    Город:
    Kiev
    Большое спасибо за программу - информацию она добывает хорошо, вопрос только что не редко сам не всегда знаешь как что сделать.
    Вопрос заключается в чем - допустим да удалось мне на сегодня взять всю информацию, и даже через базу разместить ее в своем сайте.
    Но вот тут и начинаются следующие вопросы - как у донора забирать дальнейшие обновления?
    По рсс? - так не всегда новости отдают в полном объеме
    Парсить через день? но бывает такое построение урла - что с датами запаришься и все равно не решишь.
    У кого какие варианты возможны?
    Ну под вп может блогсамурай, хотя он, как мне кажется часть новостей теряет, а под дле на пример?
     
  2. dimage

    dimage New Member Пользователи

    Joined:
    Nov 26, 2011
    Messages:
    7
    я думаю парсить раз в месяц, удаляя дубли сгенерированных ссылок в прошлый раз!
    Мне кажется всё равно вы постите по расписанию.
     
  3. ergoline

    ergoline New Member Пользователи

    Joined:
    Sep 15, 2011
    Messages:
    49
    Location:
    UA
    Город:
    Kiev
    ну это в том случае если просто текст. а если к примеру, реально к примеру текст который нужно перевести, или варезник, в котором нужно было перезалить файлы на фо? тогда дубли которые могут затереть просто не приемлемы. Да даже если просто будут висеть - это все равно гемор еще тот не перепутать и удалять.
    а вот если на сайте инфа каждый день обновляется? да и гугл ревниво смотрит за обновлениями - если раз в месяц - то отшвырнет за 5 страницу выдачи - как пить дать
     
  4. Root

    Root Администратор Администратор

    Joined:
    Mar 10, 2010
    Messages:
    14,818
    Город:
    Барнаул
    1) В программе есть планировщик, который можно запускать и запускать с заданным интервалом времени;
    2) Если сохранить проект во вкладке "ссылки", добавить туда ссылку, скажем на морду сайта, где последние 10 постов и поставить галочку "автоматически запускать парсинг контента" (после сбора ссылок), то при срабатывание планировщика программа соберет с морды новые посты, перейдет во вкладку "контент" и начнет собирать эти самые посты;
    3) Постить на сайт сразу при парсинге нужно вот так Ссылки недоступны для гостей, загружать картинки при парсинге так Ссылки недоступны для гостей (если нужна проверка на существование новости на блоге (чтобы не было дублей), то решите ее соответствующим MySQL-запросом в PHP-скрипте загрузки в базу).

    Это рабочая схема автопарсинга...
     
  5. Kodmik

    Kodmik New Member Пользователи

    Joined:
    Sep 2, 2012
    Messages:
    3
    Root, а есть возможность исключить дубли по определенному параметру при парсинге в cvs? Чтобы база просто пополнялась раз в неделю...
     

Share This Page