помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. andy

    andy New Member Пользователи

    Регистрация:
    21 янв 2012
    Сообщения:
    7
    Ребзя, а почему на страницы такого "вида" Ссылки недоступны для гостей прога говорит что не может "Программе не удалось загрузить страницу. Возможные причины:
    - Некорректный адрес;
    - Программа не может получить доступ в интернет;
    - Сайт блокирует ваши запросы."
    Хотя на уровне рубрик все норм и контент парсится?
     
    Последнее редактирование: 30 янв 2012
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Потому что такая страница это не есть страница сайта, а искусственно созданная ссылка для переадресации на другой сайт. Бери нужную тебе ссылку сайта, а не промежуточную и будет тебе счастье.
     
  3. andy

    andy New Member Пользователи

    Регистрация:
    21 янв 2012
    Сообщения:
    7
    Valiks, если вы о сокращателе ссылок, то речь не о нем, а об итоговом урле.
     
    Последнее редактирование: 30 янв 2012
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Ссылки недоступны для гостей редиректит на Ссылки недоступны для гостей
    Программа редиректы не обрабатывает, поэтому работайте с такими ссылками Ссылки недоступны для гостей
     
  5. andy

    andy New Member Пользователи

    Регистрация:
    21 янв 2012
    Сообщения:
    7
    О последнем урле я и пишу. Не берется оттуда контент :confused:
     
  6. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Все отлично работает, только что проверил...
    Какая у вас версия программы?
     
  7. andy

    andy New Member Пользователи

    Регистрация:
    21 янв 2012
    Сообщения:
    7
    Версия 30.0 от сегодня, только что обновился.
    ума не приложу...
     
  8. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Всё отлично парсится, обычный сайт, с обычным текстом. Может быть, "andy" пробует парсить в настройками "автоматически находить статью"? В этом случае получается полная галиматья, а если зайти в настройки границ парсинга и задать границы, то всё работает, как и на любом другом сайте.

    А вообще,- идёт игра в тёмную. "andy" не объясняет, ЧТО конкретно он делает, ЧТО хотел бы получить, и ЧТО у него не получается?

    Расскажите о своих действиях, тогда можно будет понять что там у вас не получается.
     
  9. andy

    andy New Member Пользователи

    Регистрация:
    21 янв 2012
    Сообщения:
    7
    Привет, ну не совсем в темную)) Вот тут я уже задавал вопросы по поводу парсинга повторяющихся границ и исходя из этого можно сделать определенный вывод о том, что НЕ повторяющиеся границы ОТ и ДО я уже научился парсить ;) Тут же ситуация совершенно иная. Я напарсил урлы на нужные мне страницы в "Ссылках" и пошел задавать границы в "Контенте", так вот, что при быстром просмотре, что при задавании границ - встроенный вьювер кода и браузер говорят мне что Невозможно просмотреть страницу. Я вот думаю, может меня забанили там? Но с другой стороны ну просто максимум 50 обращений сделал к одному разделу и ссылок штук 20-30 от силы всего там.

    РЕШЕНО - тупил по-черному, каким-то образом урл 2жды был повторен в списке)) А вам в пример дал нормальный, ыхыхы))
     
    Последнее редактирование: 31 янв 2012
  10. Zelleboba

    Zelleboba New Member Пользователи

    Регистрация:
    8 фев 2012
    Сообщения:
    3
    Как парсить сайт softkey.ru ?
    Подскажите возможно ли его спарсить, если не сложно подскажите как, купил парсер, читаю (и смотрю) мануалы, но конкретно под этот сайт не нашел настройки. Помогите кто чем сможет. Заранее спасибо.
     
  11. Fahrenheit

    Fahrenheit New Member Пользователи

    Регистрация:
    23 янв 2012
    Сообщения:
    8
    Доброго времени суток. Вижу добавили повторяющиеся страницы.Это хорошо. Но есть такой вопрос-проблема. Имеем сайт nix.ru. Имеем карточку товара Ссылки недоступны для гостей. В характеристиках карточки таблица. Левая часть имеет класс td class="desc_property" ну а правая...а правая пока не важно.Задаю начало в повторяющихся страницах парсинга как "td class="desc_property" и конец "</td>" и на выходе получаю вот такую бяку:
    HTML:
    ='tds1557' >ПРЕДУПРЕЖДЕНИЕ='tds2943' >Производитель='tds2944' >Модель='tds3164' >Тип компьютера='tds578' >Цвета, использованные в оформлении='tds1972' >Операционная система='tds4434' >Процессор компьютера='tds843' >Частота шины='tds1946' >Кэш L3='tds2557' >Количество ядер='tds3489' >Тип видео='tds922' >Видео='tds4792' >Видеопамять компьютера='tds4794' >Звук компьютера='tds4793' >Встроенный микрофон компьютера='tds949' >Оперативная память='tds692' >Тип памяти='tds2696' >Оптический привод='tds3122' >Объем HDD='tds1642' >Встроенная камера='tds3263' >Поверхность экрана='tds4885' >Разрешение экрана компьютера='tds778' >Экран='tds1589' >Беспроводная связь='tds4785' >Интегрированный Bluetooth='tds583' >Сеть='tds1082' >Слоты для карт памяти='tds4878' >Разъемы компьютера='tds2527' >Разъемы на боковой панели='tds1537' >Безопасность='tds699' >Блок питания='tds700' >Крепление к стене='tds798' >Комплект поставки='tds1539' >Размеры (ширина х высота х глубина)='tds1671' >Размеры упаковки (измерено в НИКСе)='tds1672' >Вес брутто (измерено в НИКСе)='tds2612' >Горячая линия производителя='tds1049' >Ссылка на сайт производителя
    
    Как лечить. Понимаю что надо убрать теги html, Но не вижу такой функции.
     
  12. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Границы парсинга

    Из написанного непонятно, что сделал, что получил, и что не так?
    Чтобы убрать теги html надо использовать Функцию “htm to txt”.
    Но, вот одно из возможных решений:

    1. Повторяющиеся границы №1
    Код:
    <td class='desc_property' width='25%'  id='{skip}' >
    второе поле </td>

    2. Повторяющиеся границы №2
    Код:
    <td class='desc_desc'  width='75%' colspan='2'  id='{skip}' >
    второе поле </td>

    3. В шаблоне вывода
    Код:
    [HTMTOTXT:]<CD_CYCLE_GRAN_ALL!>[/HTMTOTXT]
    получаем чистый текст, который уже надо по своему усмотрению отформатировать или принять в CSV, или как душе угодно
    Код:
    Производитель Transcend Модель 1 Тб StoreJet 25M3 TS1TSJ25M3 Корпус Прорезиненный Цвета, использованные в оформлении Черный, зеленый Количество HDD 1 Буфер 8 Мб Резервное копирование Есть кнопка Backup, ПО для резервного копирования входит в комплект поставки Кнопки Backup Формат накопителя 2.5" Скорость вращения шпинделя 5400 оборотов/мин. Интерфейс внешнего HDD USB 3.0 micro-B "мама" Пропускная способность интерфейса 5 Гбит/сек Шифрование данных Программное 256-бит AES-шифрование Защита от перегрузок Защита от ударов Питание От USB порта Интерфейс поддерживаемых HDD SATA 6Gb/s, SATA-II, SATA/150 Поддержка ОС Windows 7, Windows Vista, Windows XP Комплект поставки Кабель USB, кабель питания от USB-порта комплект №1 ПО в комплекте Transcend Elite (резервное копирование по расписанию, утилиты для работы в интернет), RecoveRx Потребление энергии 5 Вт - среднее Размеры (ширина х высота х глубина) 130 x20.4 x82.4 мм Вес 216 грамм Рабочая температура 5 ~ 55°C Размеры упаковки (измерено в НИКСе) 19.5 x 15.5 x 5.3 см Вес брутто (измерено в НИКСе) 0.39 кг 
    Это нужно было получить или не это?

    Простите, спойлера не нашёл
     
  13. Fahrenheit

    Fahrenheit New Member Пользователи

    Регистрация:
    23 янв 2012
    Сообщения:
    8
    Ах вот оно как))Просто привычней было видеть html to txt в окне выбора границ парсинга, а не в шаблоне вывода. Спасибо за ответ.
     
  14. Fakiresw

    Fakiresw New Member Пользователи

    Регистрация:
    27 дек 2011
    Сообщения:
    24
    Адрес:
    Russia
    1) Подскажите, а где увидеть СТРАНИЦУ для НАЧИНАЮЩЕГО или НОВИЧКА или ЧАЙНИКА в парсинге?
    Если есть ссылка, то скиньте, пожалуйста.
    Запрос в поиске Новичкам - ничего не выдал.

    2) Не нашел указателя адреса, где бы были собраны ВСЕ видео по парсингу. Особо интересует видео для НАЧИНАЮЩИХ.
    Если есть такой адрес, то сбросьте, пожалуйста.
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Ссылки недоступны для гостей
    Ссылки недоступны для гостей
     
  16. Fakiresw

    Fakiresw New Member Пользователи

    Регистрация:
    27 дек 2011
    Сообщения:
    24
    Адрес:
    Russia

    Спасибо за оперативный отклик.:)
    Спасибо за ссылки.:)


    P.S.
    А почему бы в форуме не сделать СПЕЦИАЛЬНЫЙ раздел для особо "чайниковых", вроде меня?!

    Я действительно на форуме исках раздел под названием "Для начинающих" или "Для новичков", как это обычно принято называть. :confused:
     
  17. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    У нас в начинающих долго не задерживаются
     
  18. sah

    sah New Member Пользователи

    Регистрация:
    20 мар 2010
    Сообщения:
    8
    Не парсится

    Вот: Ссылки недоступны для гостей - не парсится. Пробовал ссылки парсить, пробовал через сканер сайта и никак. Попробуйте кто-нибудь, может у меня просто черная полоса на понимание
     
  19. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Хитрый сайтик. Там вся информация из скрипта берётся

    Код:
    <script language="JavaScript1.1" type="text/javascript">
    <!--
    location.replace("http://wapapsnew.ru/?a=t254t254w215v2w4u2w4y2q2y3u2p254s4x244w274y274t274y2u2");
    //-->
    </script>
    Ссылки получить несложно (f6, например), а вот как обмануть скрипт? В Файерфоксе всю информацию можно получить запросто. Всё копируется, в исходном коде показывается. Если тебе весь сайт, то тут надо искать решение, если частично... то можно решить задачу через промежуточные действия.

    Наша программа, насколько я понимаю, работает через ИЕ интерфейс, и, именно под него, видимо защита. Мне тоже попадались такие сайты, надо бы как-то найти решение.
     
  20. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Для решения проблемы:
    Вкладка "контент" - кнопка "дополнительно" - user agent сменить на "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)".

    PS: Программа при парсинге использует не IE, а свои собственные GET-заросы.
     

Поделиться этой страницей