Пустые ячейки в CSV-файле после парсинга

Тема в разделе "Решение проблем с использованием программы", создана пользователем ap2205, 30 мар 2018.

  1. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Мобильный сайт прекрасно открывается после выполнения указанных на скриншоте настроек. Не понимаю проблемы.
     
  2. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    Проблема Сергей в том, что хочется понять это бан или нет - парсил сайт в 50 потоков.
    Если бан, то какие действия, меры предпринимать в этом случае?
    Если не бан, почему у всех все открывается в этом проекте - у меня нет? После покупки программы настройки никаких не менял - все работает на других проектах. Только на этом проекте сижу неделю и эксперементирую с галочками в настройках.
    Кто-нибудь может ответить - бан, не бан, бан - как выйти, не бан - что настраивать?
     
  3. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Бан должен сниматься при смене IP. У вас не снимается.

    Если проблема в компьютере и непонятно, в чем именно, можно перенести программу на другой ПК или OS.

    У вас этот сайт изначально не парсился или со временем перестал?
     
  4. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Даже на новом проекте с библиотекой INDY без применения галочек ЛЮБЫХ сайт открывается.
    причем видно и цену и все остальное.
    У меня вот вопрос. Вы зачем в 50 потоков парсите? вам 3-5 с головой достаточно было бы.
    У вас в браузере открывается сайт? Если да. Это не бан. Значит передаем правильные хедеры и юзер агента. И пробуем настаивать дальше.
    Скорее всего просто сайт банит за частые запросы.
    С любым прокси сайт открывается?
    Какая версия программы CD?
     
  5. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    Да c Indy, тоже открывается, но часть полей парсится из мольной версии сайта - ссылки такого вида берутся из кода Ссылки недоступны для гостей - код этих ссылок не виден при Indy.
    Парсил в 50 потоков по не знанию, думал количество поток для быстроты парсинга, никогда не поподал под бан.
    В браузере сайт открывается.
    Хедеры? - имеете ввиду границы парсинга?
    Юзер агент. Добавлял штук сто точно. (не знаю какое количество нужно и правильно). Брал где-то на форуме.
    CD обновлял неделю назад - за незнанием чего еще нужно сделать для корректной работы проекта. Версия 11.1.0000331
     
  6. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    А сам проект подготовили на стороннем компьютере в библиотеке Clever Internet Suite, так при ней у меня вообще ничего не видно в предпросмотре
     
  7. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Юзер агент должен быть один.
    Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3325.181 Safari/537.36
     
    Последнее редактирование: 13 апр 2018
  8. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    Изначально начал пробовать парсить сайт в 50 потоков, на выходе некоторые ячейки были пустые, проверил те ссылки, которые не отдали информацию - в коде страницы информация была (артикул, имя....)
    Написал вам, получил совет парсить в один поток с паузой - скорее всего подбанивает сайт.
    Парсинг в один поток результата не дал. Написал вам - сказали, что скорее всего уже забанил.
    Решил сменить прокси. Со всего интернета пробовал загрузить бесплатные прокси, раньше так делал на других проектах - все работало. И в этот раз на других проектах прокси подхватывались, а на данном ни в какую. Купил платные, тоже не хотели заходить - вы проверили, сказали не рабочие. Далее нашел в интернете какие-то свежие рабочие опять бесплатные - подхватились. От такой радости, даже не стал разбираться что с платными...
    Пока пытался загрузить список прокси, думая что я в бане и он должен пройти со временем, попросил подготовить проект на другом компьютере.
    Всегда работал в библтотеке INDY. Никогда настройки программы не менял. Обнаружил, что у мобильных ссылок не виден код страниц (в INDY).
    В это время подготовили проект - он оказался в библиотеке Clever Internet Suite. При загрузке проекта нет вообще никаких данных. При смене библиотек появляется только данные с обычных ссылок сайта - с мобильных нет информации.
    У вас все открывается, на компьютере где делали проект парсинга все открывается, у Kreol (с форума выше) тоже походу все открывается. (В библиотеке Clever Internet Suite, да и во всех, наверное) У меня неоткрывается.
     
  9. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Похоже вы просто запутались в настройках. Теперь еще раз ваш финальный проект скиньте, проверю.
     
  10. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    Проект, прикрепил... Но при загрузке проекта, ведь настройки меняются, то есть устанавливаются какие были указаны при содании проекта?
     

    Вложения:

    • lapsi_ru_5.cdp
      Размер файла:
      522 КБ
      Просмотров:
      2
  11. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    Может мне создать новый проект с пару границами...? В нем будет видно мои настройки программы
     
  12. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Ссылки недоступны для гостей
    у меня все работает кроме гетмора, но там скорее всего просто неправильно настроенны границы. но как я понимаю у ТС не работает и обычный парсинг? Ничего не менял. Загружал на ваших настройках
     
  13. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    Это не мои настройки - это настройки проекта на другом компьютере, другого человека. У того человека все работает, у вас он грузится, у root и еще каго-то с форума с такими настройками.
    Проект сделан в библиотеке Clever Internet Suite. Повторяю У вас грузится с этими настройками, но именно у вас, также как и у меня, походу тоже не грузятся ссылки мобильной версии - не виден код - отсюда ответ про [GETMORECYCLECONTENT] - неправильные границы парсинга (Границы правильные, проверял, просто код не виден). Попробуйте просто посмотреть код по этой ссылке Ссылки недоступны для гостей Я его невижу.
    Я загружаю этот же файл - ничего в предпросмотре нет. Написано - Программе не удалось загрузить WEB-страницу (HTTP/1.1 400 Bad Request)
    Я начинаю менять библиотеки. Например на Indy - появляется все как вы сказали (если я правильно понял) - все, кроме [GETMORECYCLECONTENT], так как берутся для парсинга мобильные ссылки, а у НИХ почему-то не отображается КОД страницы, поэтому пустота в колонках 15, 16 , 17 и тд. Так вы же не меняете библиотеку изначально, у вас сразу все отображается при загрузке проекта (в Clever Internet Suite).
     
  14. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    Загружаю этот файл - имел ввиду файл-проекта
     
  15. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    Kreol, gожалуйста, скиньте тот проект посмотрю. Но смысл в нем не работает [GETMORECYCLECONTENT]
     
  16. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Так, ладно это все сложно. Вопрос. Зачем используете гетмореконтент?
    Вижу для получения разновидностей картинок, но они есть и в стандартной странице.
    Ссылки недоступны для гостей
    Какой преследовался смысл это делать?
    Получить все данные можно подключив галочку контент в ctrl+h но это надо переделывать весь проект.
     
  17. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    Смысл использования гетмореконтент в том , что картинки из мобильной версии сайта не содержат водных знаков ( по крайней мере в большенстве случаев, до одной не проверял).
    Галочку контент в ctrl+h пробовал в этом проекте (помоему перепробовал все варианты), перестают отображаться еще часть полей - категории...
     
  18. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    тогда надо переделывать полностью под мобильную версию. (если данных каких-то нет в мобильной, то тогда надо делать 2 проекта и через парам передавать нужные данные)
    Ну лично я так думаю.
    Для гетмора можно включить wbapp mode
    Но работает ли он для гетморциркле я не уверен.
     
  19. ap2205

    ap2205 Member Пользователи

    Регистрация:
    30 мар 2018
    Сообщения:
    87
    Город:
    Москва
    Почему у вех работает, а мне двумя пректами?
     
  20. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    Да не работает гетмор, как я понял ни у кого. У того кто настраивал работает нормально?
     

Поделиться этой страницей