Проставить в спаршенные статьи ключи, по которым они парсились с гугл

Тема в разделе "Решение различных задач по парсингу", создана пользователем konfuciy, 27 фев 2014.

  1. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    Можно ли средствами CD сделать следующее:
    1. спарсить ссылки гугл на статьи с сайтов по определенным ключам - можно
    2. спарсить сами статьи по ссылкам - можно
    3. вставить в статьи в какие-либо произвольные места в каких-либо тегах ключи, по которым они парсились - ???

    волнует вопрос 3. можно ли его как-то реализовать?
    на мой взгляд - это ОЧЕНЬ нужный функционал
     
  2. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Здравствуйте!
    При генерации ключей в окне {key} вы должны были увидеть ЧекБокс (галочка) "добавлять в ссылки [PARAM] потом его можно будет выводить макросом шаблона вывода [PARAM] при парсинге контента".
    С уважением к вам, Сергей.
     
  3. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    спасибо, буду пробовать
     
  4. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пожалуйста, рад помочь, обращайтесь!
     
  5. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    1. Подобное реализуемо, проставить диапазон ссылок для гоогле ссылки
    Код:
    https://www.google.ru/search?client=opera&rls=ru&q={key}&sourceid=opera&ie=utf-8&oe=utf-8&rls=ru&start={num}
    во вкладке "ссылки" используя {key} для вставки запросов/кеев и отметить галочку "ставить ссылкам [PARAM]" ну и диапазон используя {num}.
    2. настраиваем фильтр ссылок
    3. Дальше интереснее, переходим в шаблон вывода и тут используем только макросы автоматического парсинга, чтобы проставить теги параграфов или внедрить в середину текста анкоры с кеем пользуем макрос FIRST_REPLACE с регулярными выражениями, после это добро распарсить можно макросом GETMORECYCLECONTENT (как раз для многократного внедрения своего кода/текста в статью)

    п.с. Если интересует готовое решение, можем обсудить в скайпе.:eek:liver:
     
  6. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    звучит весьма заманчиво. спасибо большое.
    попробую сначала сам разобраться, если не выйдет, то обращусь.
    2,5 этапа я прошел, линки сделал, статьи спарсил, мне осталось " проставить теги параграфов или внедрить в середину текста анкоры с кеем пользуем макрос FIRST_REPLACE с регулярными выражениями, после это добро распарсить можно макросом GETMORECYCLECONTENT (как раз для многократного внедрения своего кода/текста в статью)"
    вот это и буду пробовать.

    вы делаете сайты на таком контенте?
    насколько это эффективно?
     
  7. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    я правильно понимаю, что макрос GETMORECYCLECONTENT предназначен для парсинга многостраничных документов?
    если я парсю просто статьи в одну страницу мне он не нужен?
     
  8. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Макрос можно использовать по разному - но в основном он используется для распасивания однотипных блоков кода с удаленной страницы.
    Но благоаря использованию вместо Ссылки недоступны для гостей
     
  9. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    эспериментирую с этой галочкой. ко всем ссылкам на парсинг гугла добвился парам и кей.
    но после того, как ссылки на статьи я из гугла спарсил, к ним ни парам ни кей не добавился. соответственно, понять какая статья по какому кею была спаршена нельзя. что-то не то делаю?
     
  10. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    какой-то глюк с функцией PARAM.
    я парсю большое число ссылок с гугла.
    соответственно, гугл периодически банит и просит ввести капчу.
    каждый раз когда это происходит парсинг останавливается и выскакивает окно со списком ссылок.
    я копирую файл линкс.тхт, поскольку когда я получаю куки, включаю парсинг опять, прога начинает перезаписывать линкс.тхт по новой а не приаттачивать.
    соответственно, набралось около 10 файлов линкс.тхт килобайт по 30, которые потом надо соединить.
    так вот из этих 10, только на 10м к ссылкам стал дописываться PARAM.
    в первых 9 были просто ссылки без это атрибута в конце.
    я не менял настройки во время парсинга. просто получал куки и запускал его дальше при каждой остановке.
    как сделать, чтобы PARAM приаттачивался ко всем ссылкам.
    собственно, из-за этого и был мой вопрос выше, PARAM в первых 9 пачках линков отсутствовал, и я не знал, что он вообще появится. но на 10й пачке он вдруг появился.
     
  11. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Пробуйте ставить 1 поток и паузу 3000-5000, чтобы не банило.
     
  12. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    не вижу во вкладе ссылки настройку количества потоков, только во вкладке контент
    я в контенте выставил 1 поток и запустил сбор ссылок, пробую, пока работает нормально
     
    Последнее редактирование: 28 фев 2014
  13. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Во вкладке "ссылки" всегда один поток. Настройки паузы там есть (смотрите всплывающие подсказки к текстовым формам).
     
  14. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    подскажите, отчего не парсит ссылки через прокси? отчекал прокси, поставил 2 галки (использовать прокси везде и использовать прокси в окне ссылок).
    процесс стоит на нуле и не двигается уже минут 10
    проски 40-50 штук.
     
  15. Root

    Root Администратор Администратор

    Регистрация:
    10 мар 2010
    Сообщения:
    14.818
    Город:
    Барнаул
    Такие вот у вас прокси, видимо =)
    Я не знаю, есть ли смысл вообще использовать прокси для Гугла (я сам никогда не использую прокси), но знаю, что есть смысл использовать паузу между запросами по 3000-5000 мс. Поэтому советую не заниматься прокси, а парсить с паузой и сильно не переживать =)

    Почему я не использую прокси:
    - Они постоянно улетают в бан и большая часть их давно во многих местах в бане...
    - Они часто работают очень медленно или вообще не работают (наверное, зависит от погоды)...
    - Многим серьезным сайтам на многие прокси просто все равно...

    Может быть я где-то ошибаюсь из-за недостаточного опыта работы с ними, но пока думаю так, как написал.

    Спасибо за обращение.
     
  16. Kreol

    Kreol Модератор Команда форума Модератор

    Регистрация:
    6 янв 2013
    Сообщения:
    2.666
    1) проверьте не забанили ли вас сайт. (попытка открыть любую границу и подождать загрузки кода) Если банят жестоко, то бан может быть до дня (бывало и такое)
    2) попробуйте передать куки
    3) попробуйте сменить useragent (ctrl+h)
    4) используйте покупные прокси. например
    Скрытое содержимое:
    **Скрытое содержимое: доступно при наличии 1 постов.**
     
  17. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89
    видимо мои паблик прокси в бане
     
  18. konfuciy

    konfuciy New Member Пользователи

    Регистрация:
    10 янв 2013
    Сообщения:
    89

    спасибо, хороший совет, несколько медленно, но таким способом все заработало и весь список откатался без остановок
     
  19. furiec

    furiec Member Пользователи

    Регистрация:
    24 дек 2012
    Сообщения:
    63
    Просто прокси нужно проверять именно на гугле, а не проверить их на яндексе, а потом парсить гугл, так же не нужно передавать куки (по ним вас палят) при парсинге через прокси, менять ЮА, ну и время при чеке прокси нужно не 20000 как по умолчанию иначе тоже очень долго будет, что уж легче без прокси. А вообще для этих дел (работа через прокси) не хватает статистики проксей в программе, тоесть если несколько раз не удалось получить код или выскачила капча то прокся в бане и нужно ее убирать автоматом (хорошо бы еще признак бана чтоб можно было выставить)
     
  20. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.429
    Адрес:
    Latvia
    Признак бана выставите самостоятельно по желанию (на скриншоте например граница 3 выбрана)

    [​IMG]
     

Поделиться этой страницей