помощь в парсинге определенного сайта

Тема в разделе "Решение различных задач по парсингу", создана пользователем Root, 10 мар 2010.

  1. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Пример проекта приложен, обратите внимание что в таком случае можно зацепить неполное слово пропустив первую букву чтоб не зависеть от регистра первой буквы.:soccer:
     

    Вложения:

  2. dentany

    dentany New Member Пользователи

    Регистрация:
    28 апр 2013
    Сообщения:
    16
    Город:
    г. Донецк
    Спасибо, почти получилось!
    Нюанс: я взяла конструкцию из того, что Вы предложили:
    <CD_DOCURL!>
    <CD_GRAN_1!>[CSVCS]
    Но в просмотре они становятся в csv таблице в одну строку. Как мне сделать, чтобы урл был в первой колонке, т.е. отдельно, а кейворды - отдельно?

    (видео мне не надо и дескрипшен тоже, я их удалила поэтому - нужен урл и список ключей).

    А вообще - гениально, и я так и не поняла, что за окно WBApp какой-то там версии - это как у Вас получилось? Ну чтоб знать где копать в следующий раз.

    Большое спасибо.
     
  3. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.442
    Адрес:
    Latvia
    Чтобы в Content Downloader удобно было работать с полями будущего документа.
    1. Перейдите в шаблон вывода (ctrl+2)
    2. Включите отображение в вид привычный как в Excel, сочетание клавишь ctrl+s

    п.с. wbapp включается в ctrl+h увидите там отметил на "контент", это иной подход к парсингу когда нужно чтоб обрабатывались javascript/ajax
     
  4. Бакытжан

    Бакытжан New Member Пользователи

    Регистрация:
    25 окт 2015
    Сообщения:
    13
    Народ, подскажите, хочу спарсить сайт sima-land.ru, причем парсинг нужен такой - Все товары, чтобы были расставлены по всем категориям, картинки, описание и прочая.. чтобы потом на выходе иметь просто Excel-файл и папку с картинками, которые я загружу на свой сайт через специальный модуль. Причем каждая категория товара должна быть описана в отдельном столбце для каждого товара Такое сможет эта прога? Бежать оплачивать ее? Может у кого есть готовый проект парсинга?
     
  5. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    Без проблем Ссылки недоступны для гостей

    Готового проекта для парсинга этого сайта у меня сейчас нет.

    С уважением к вам, Сергей.
     
  6. Бакытжан

    Бакытжан New Member Пользователи

    Регистрация:
    25 окт 2015
    Сообщения:
    13
    Ссылка не открывается(((((
     
  7. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Только что проверил - прекрасно работает.
     
  8. Бакытжан

    Бакытжан New Member Пользователи

    Регистрация:
    25 окт 2015
    Сообщения:
    13
    Очень странно, такое ощущение, что мой провайдер интернета заблокировал ваш ресурс (Провайдер Билайн Казахстан). Пришлось создать впн-канал, чтобы зайти на ссылку...
     
  9. Dmitry433

    Dmitry433 New Member Пользователи

    Регистрация:
    28 окт 2015
    Сообщения:
    4
    не могу спарсить комментарии, помогите пожалуйста Ссылки недоступны для гостей
    формат на выходе "Имя - текст"
     
    Последнее редактирование: 28 окт 2015
  10. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    В программе: меню - файл - загрузить проект.

    Вот материал системы помощи по вашему вопросу Ссылки недоступны для гостей

    С уважением к вам, Сергей.
     

    Вложения:

  11. AlexVovk

    AlexVovk New Member Пользователи

    Регистрация:
    21 дек 2015
    Сообщения:
    8
    Добрый день! Подскажите, пожалуйста, как быть в таком случае:
    Ссылки недоступны для гостей
    Здесь нет ссылок на страницы товара. Они открываются в том же окне.
    Помогите, плиз!
     
  12. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте.

    На этом сайте данные товаров подгружаются с таких ссылок:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    Где 6038-ID товара.

    ID товаров мы собираем с вот таких страниц выдачи во вкладке "ссылки":
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
    После чего идем во вкладку "Контент" и парсим нужные данные.

    Примечание: Данные товаров закодированы. Используйте макрос шаблона вывода [JSONDECODE] для их раскодирования.

    Файл проекта приложил (в программе: меню - файл - загрузить проект).

    С уважением к вам, Сергей...
     

    Вложения:

  13. AlexVovk

    AlexVovk New Member Пользователи

    Регистрация:
    21 дек 2015
    Сообщения:
    8
    Огромнейшее спасибо за столь быстрый и развернутый ответ! Буду сейчас пробовать. Служба поддержки у Вас суперская, как и Ваш софт!
     
  14. AlexVovk

    AlexVovk New Member Пользователи

    Регистрация:
    21 дек 2015
    Сообщения:
    8
    Сорри, предыдущая проблема уже решена.
    Все же, возвращаясь к "Калибру".
    Сергей, простите, но я что-то никак не могу извлечь вот эти данные.
    Ссылки недоступны для гостей
    Я просто не могу их найти. Ссылки, который удалось спарсить, не несут в себе этой информации.
     
    Последнее редактирование: 22 дек 2015
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте еще раз.

    Действительно, сайт требует отправки более "точных" запросов. Проект приложил, скриншоты с пояснениями приложил.

    С уважением к вам, Сергей...
     

    Вложения:

  16. mavar

    mavar New Member Пользователи

    Регистрация:
    7 янв 2014
    Сообщения:
    34
    Город:
    Москва
    Код превращается в кракозябли на Авито

    Почему-то в мобильной версии авито кот как-будто абфусцирован. Но проверяю через свою мозилу - нормальный код. С чем это связанно?
    Соответственно не могу найти ни контент ни границы парсинга!

    Для примера:
    вот урл: Ссылки недоступны для гостей

    и код, который выдает браузер CD
     
  17. mavar

    mavar New Member Пользователи

    Регистрация:
    7 янв 2014
    Сообщения:
    34
    Город:
    Москва
    Одна и та же страница:

    просмотр в браузере CD вот так выглядит:
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  18. mavar

    mavar New Member Пользователи

    Регистрация:
    7 янв 2014
    Сообщения:
    34
    Город:
    Москва
    Открыл более старый свой проект, и там все нормально!!!
    ТОлько вот разницы не улавливаю между ними..
     
  19. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Нажмите ctrl+h и включите "Internet Explorer (DOM)".
     
  20. mavar

    mavar New Member Пользователи

    Регистрация:
    7 янв 2014
    Сообщения:
    34
    Город:
    Москва
    К сожалению не помогает!
     

Поделиться этой страницей