помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. Sergey

    Sergey New Member Пользователи

    Регистрация:
    16 фев 2012
    Сообщения:
    1
    Помогите пожалуйста

    Мне необходимо скачать книги с сайта Ссылки недоступны для гостей Хочу получить в текстовые файлы, все книги, каждая книга в отдельном текстовом файле.
    На сайте книги разбиты на категории и авторов Ссылки недоступны для гостей

    Подскажите как правильно это сделать?
     
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Собери ссылки и скачивай полностью. Все книги там уже текстовом формате
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    сканером пройдитесь так основательно по сайту и соберите ссылки на книги, в фильтре указав Ссылки недоступны для гостей
    а потом как соберете ссылки на книги, отметьте htm to text где стереть надо все теги что есть - парсите текстовики
     
  4. Alex777

    Alex777 New Member Пользователи

    Регистрация:
    6 мар 2012
    Сообщения:
    10
    Перед покупкой Content Downloader'a хотел бы узнать решит ли данная программа задачу парсинга телефонных номеров в ТЕКСТОВОМ формате в .тхт/.csv файл с сайтов: avito.ru и bibika.ru
    Наблюдал на видео что парсит так как мне надо с cars.auto.ru, но одного этого сайта мало.
     
  5. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Всё можно решить. Сайт bibika.ru парсится как обычный сайт, ничего в нём особенного нету, avito.ru немного более навороченный, в плане получения телефонов, но, и к нему можно ключик подобрать, если надо. Как парсится cars.auto.ru вы уже видели. Аналогичные сайты тоже можно спарсить, правильно настроив проект.

    Вот в в этой теме показан пример того, как парсится наиболее трудный сайт slando_ru
     
    Последнее редактирование: 6 мар 2012
  6. Zolders

    Zolders New Member Пользователи

    Регистрация:
    29 фев 2012
    Сообщения:
    11
    Добрый день! Подскажите, как обойти Forbidden access (Flooding) на сайте Ссылки недоступны для гостей
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.
    Видимо, из-за частых запросов схватили бан.
    Используйте 1 поток.
     
  8. Zolders

    Zolders New Member Пользователи

    Регистрация:
    29 фев 2012
    Сообщения:
    11
    1 поток так же не помогает.... Проходит товаров 120 и всё...
    Думал уже в 1 поток, каждую категорию, переписал названия всех категорий и всё равно... без результатно...

    Я понимаю что ловлю бан, но как можно это обойти?
     
  9. Alex777

    Alex777 New Member Пользователи

    Регистрация:
    6 мар 2012
    Сообщения:
    10
    Видел. Поэтому купил программу. Всё сделал как на видео. Открытые телефоны парсит. А вот со скрытыми незадача. Они не открываются так как показано на видео 8 мин 12 сек здесь Ссылки недоступны для гостей
    Возможно на сайте изменили способ сокрытия тел номера или ещё что-то изменилось. Помогите пожалуйста т.к. нужны именно скрытые тел номера.
     
  10. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Да, вижу, условия сайта поменялись, появилась опция "показать номер телефона".
    Решение должно существовать, сейчас поищем.
     
    Последнее редактирование: 7 мар 2012
  11. Alex777

    Alex777 New Member Пользователи

    Регистрация:
    6 мар 2012
    Сообщения:
    10
    Спасибо за ответ. Решение похоже было и на видео оно есть (на 8 мин 12 сек), но у меня в программе при нажатии на "Показать телефон" этот телефон не открывается, а вместо этого выделяется соответствующее словосочетание в коде html-страницы. Буду ждать решения.
     
    Последнее редактирование: 7 мар 2012
  12. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Решение прилагается
     

    Вложения:

  13. Alex777

    Alex777 New Member Пользователи

    Регистрация:
    6 мар 2012
    Сообщения:
    10
    Большое спасибо. Проверил, работает. Пользуюсь.
     
  14. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Куда ему деваться?
     
  15. Aleksandr1

    Aleksandr1 New Member Пользователи

    Регистрация:
    24 фев 2012
    Сообщения:
    14
    Не загружаются картинки: _http://vsegriby.com/sedobnye/lactarius/81.html[/url]
    Методы в Ссылки недоступны для гостей не помогают. Что можно сделать?
     
  16. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Ничего особенного в картинках там нету, обычный код (почти). Выводится необычно
    Код:
    <div style="float: left;"><a href="images/de344e0cada7128a4fe2bc9988c8569e/042-1.png" class="highslide" onclick="return hs.expand(this, {captionId: 'caption3'})">
        <img src="images/2a1f988a1c6e3080642b92c70e3cd9a8/thumb_042-1.png" alt="Горькушка, Груздь горький" style="width: 200px; height: 200px;" align="left" />
    Тебе нужно выделить вот этот код, то что красным, первая граница и вторая:
    <img src="images/2a1f988a1c6e3080642b92c70e3cd9a8/thumb_042-1.png"

    В границах парсинга начало парсинга задай такое
    <img src="images/{skip}/thumb_
    окончание
    "

    В шаблоне парсинга создай такую конструкцию

    <img src="http://vsegriby.com/assets/images/002/<CD_GRAN_1!>">

    Это для первого изображения. По такому же принципу работают и остальные полноразмерные изображения.

    <img src="http://vsegriby.com/assets/images/002/<CD_GRAN_2!>">
    <img src="http://vsegriby.com/assets/images/002/<CD_GRAN_3!>">

    Всё работает, проверял.
     
  17. Zolders

    Zolders New Member Пользователи

    Регистрация:
    29 фев 2012
    Сообщения:
    11
    Добрый день! Подскажите пожалуйста с Ссылки недоступны для гостей Со всем получается, кроме малых и больших изображений
    Изображения расположены (пример) Ссылки недоступны для гостей
    При задании границ парсинга: <img src="/-/uploads/ru/00/00/41/33/big-4203713340.jpg"

    Как спарсить изображение? Где я ошибаюсь?
     
  18. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Сказать, где вы ошибаетесь, сложно, а вот подсказать, как правильно парсить изображения, можно. Но, такой сайт уже появлялся тут, и я показывал как парсить. Кроме всего это показано в уроках, например, Ссылки недоступны для гостей. Но, скажу ещё раз.

    Код ссылки вот такой:
    Код:
    <img src="/-/uploads/ru/00/00/42/25/item-3885248720.jpg" alt="">
    Границы парсинга,- начало
    <img src="
    конец:
    "
    Настроив границы парсинга, надо перейти к настройке шаблона. Преджположим, у вас картинка была настроена в <CD_GRAN_1!>
    Значит, чтобы получить полноценную ссылку, надо добавить к тому, что мы получим, ещё и недостающую часть
    http://tigres.com.ua
    в начало дополнительных границ парсинга. Либо настроить в самом шаблоне так, как показано в сообщениях чуть выше.
    <img src="http://tigres.com.ua<CD_GRAN_1!>">
     
  19. Zolders

    Zolders New Member Пользователи

    Регистрация:
    29 фев 2012
    Сообщения:
    11



    ОГРОМНОЕ СПАСИБО!!!
     
  20. Diabet

    Diabet Member Пользователи

    Регистрация:
    12 фев 2012
    Сообщения:
    114
    Ссылки недоступны для гостей
    Нужно спарсить каталог тоесть полная картинка и инфо о товаре
    помоему на нем не реально. пожалуйста скажите что я не прав. оч надо именно этот
     

Поделиться этой страницей