Не парсится сайт

Тема в разделе "Решение проблем с использованием программы", создана пользователем koleso62, 30 июл 2013.

  1. koleso62

    koleso62 New Member Пользователи

    Регистрация:
    28 янв 2013
    Сообщения:
    29
    Доброго времени суток! Нужно было сегодня спарсить статьи с сайта Ссылки недоступны для гостей но сколько бы я ни пытался, все тщетно, Content Downloader не находит ни одной ссылки на сайте. Думал что что-то с программой, но нет, с другими сайтами программа работает на "ура". Подскажите пожалуйста, в чем может быть проблема? Спасибо!
     
  2. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    проверьте настройки фильтров ссылок, все нормально на сайте
     
  3. koleso62

    koleso62 New Member Пользователи

    Регистрация:
    28 янв 2013
    Сообщения:
    29
    К сожалению не помогло, фильтр ссылок по дефолту стоит, да и я когда начинаю новый проект всегда нажимаю Ctrl+N чтобы все настройки были сброшены

    UPD1. Только что переустановил CD это тоже не помогло, забивая главную страницу Ссылки недоступны для гостей через F8 ссылки в ней не находится, в окне появляется сообщение "Документ, который вы пытаетесь загрузить, пуст. Возможные приины: невалидная ссылка, вас заблокировал сайт, вы загружаете пустой документ" ( Кстати, на заметку Сергею, в данном сообщении в слове "причины" буковка "ч" пропущена, пусть при возможности подправит!). Зато если забить ссылки вложенных страниц, например Ссылки недоступны для гостей то с этой страницы CD ссылки находит
     
    Последнее редактирование: 31 июл 2013
  4. Evgen-12

    Evgen-12 New Member Пользователи

    Регистрация:
    30 май 2013
    Сообщения:
    12
    Адрес:
    Екатеринбург
    Попробуйте передать куки сайту (было что-то подобное, это помогло).
     
  5. koleso62

    koleso62 New Member Пользователи

    Регистрация:
    28 янв 2013
    Сообщения:
    29
    К сожалению тоже не помогло! Я подозреваю что дело в кривизне сайта, сделан он как то криво...
     
  6. Evgen-12

    Evgen-12 New Member Пользователи

    Регистрация:
    30 май 2013
    Сообщения:
    12
    Адрес:
    Екатеринбург
    А вы с главной страницы куки пробовали передать или с какой-то ветки сайта?
     
  7. alamina.moon

    alamina.moon Модератор Команда форума Модератор

    Регистрация:
    14 янв 2013
    Сообщения:
    214
    Судя по всему на сайте проблемы с кодировкой. Боюсь что пока разработчик не пофиксит, этот сайт с помощью программы спарсить можно будет только обходными путями. Отправлять в пхп скрипт урл страницы, вырезать битую кодировку либо подгружать часть файла в одной кодировке и часть в другой. Вопщем долго объяснять и муторно. Николас1612 возможно вам объяснит :) у него и скрипт похожий вроде был ;)
     
    Последнее редактирование: 14 авг 2013
  8. nikolas1612

    nikolas1612 Member Пользователи

    Регистрация:
    27 ноя 2011
    Сообщения:
    439
    в дополнение к сказанному Аламиной, которого глубоко уважаю и у которого много чего почерпнул, объясняю. ;)
    на сайте проблемы с кодировкой не "может быть", а точно.

    1). как это проверить - сохраните проблемную страницу на локальный диск, переименуйте ее в ТХТ и откройте в notepad++. В середине кода вы увидите черные символы от другой, чудом затесавшейся в него кодировки.
    браузер эту хрень умудряется переварить. CD - до недавнего времени - нет.

    2). по моей просьбе, разработчик CD уже 3 дня как как пофиксил эту проблему, и теперь CD без всяких php-скриптов нормально справляется со страницами, выполненными в битой кодировке. CD стал всеядным.
    ссылки на обновленный исполняемый файл программы выкладывались здесь -
    http://forum.sbfactory.ru/showthread.php?p=6409#post6409
    или, если хотите - ждите первого официального обновления.

    а вообще читайте форум. на нем часто проскакивает полезное, доброе, вечное.
     
    Последнее редактирование: 13 авг 2013

Поделиться этой страницей