В программе можно подключать текстовой файл, в который записывается ссылка удачно спарсенной страницы. При последующем парсинге проверка по списку идет из текстовика и парсит только новые, тем самым избежать дублей можно.
Вы меня совершенно не поняли. Речь идет о том, что одна страница может быть под множеством разных URL (wordpress, drupal). И для ее "единого" url используется Ссылки недоступны для гостей