Какие сайты стоит парсить, а какие нет ?

Тема в разделе "Свободный форум", создана пользователем zilon, 13 июл 2012.

  1. zilon

    zilon New Member Пользователи

    Регистрация:
    24 дек 2011
    Сообщения:
    80
    Хочу у вас узнать, какие сайты стоит парсить, чтобы напарсённый контент, импортировать себе на сайт и получить, как можно больше трафика с ворованых статей и как можно меньше проблем? Например я ещё не нашёл в выдаче, не одного УГ дела, которое возбудили бы, за ворованные статьи... поэтому, я думаю что любой сайт можно парсить и ничего за это не будет, кроме гневных писем, от пострадавших вебмастеров
     
  2. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Вы прямо "компрометирующие вопросы" задаёте. Когда-то нас в школе учили, что воровать чужое и присваивать его за своё нехорошо. Сейчас не знаю, как учат. Наверное, этот "акт", в зависиомсти от ряда причин, как то: у кого, сколько и как удачно, может считаться либо преступлением, либо "предпринимательством". Как быть с вашим случаем?

    Я не юрист всяких там премудростей УК не знаю, однако, думаю, те "предприниматели", которые сейчас у кормушки, то есть у руля, давно бы нашли способ как наказать каждого жителя страны, заодно и засадить всех за решётку. Но "просто так" боязно, а найти причину не получается. Но стараются. Выдумано уже столько законов, что если их принять можно было бы сменить оконные рамы и поставить "в клеточку".

    Однако, от слов к делу. А дело в том, что само по себе путешествие по страницам интернета уже делает каждого из нас (согласно нынешним "законам") преступником. Ведь текст это "интеллектуальная собственность", а механизм любого браузера таким образом работает, что вынужден этот вот текст страницы интернета загрузить сначала себе, то есть на компьютер, и только после этого может его нам показать на экране в виде текста. То есть, по зэковским законам, мы уже "присвоили" себе чужое. Как тут быть? Элементарно, Ватсон,- отказаться от Интернета вообще.

    Что касается заданных вопросов, тут вам никто не сможет помочь, подсказать "общие правила" того, как работать с копипастом. Главная опасность, это не УК, и не злые админы сайтов, а Яндекс, теперь уже с Гуглем. Не нравится им, если текст на вашем сайте не уникальный. До недавнего времени Гугле терпеливо к этому относился, а вот совсем недавно взъелся. Непонятно, какое ему дело, например, до российского контента, но, позиции многих сайтов сильно упали.

    Стратегия может быть такая, что вы будете собирать контент не с одного только сайта дяди Феди, но перемешаете контент ещё и наполнением с сайтов тёти Клавы и бабы Дуни. Кроме этого, очень важно, чтобы сайт был тематический, а контент тоже соответствовал этой тематике. И главное,- кто мешает вам проставить ссылку на одолженный контент,- "Оригинал статьи, на сайте тёти Цыли Ивановой". В этом случае все будут довольны,- и админ сайта,- ему пришла халявная ссылка на его сайт, и, в какой-то мере Яндекс, возможно даже Гугле и даже грозный УК.

    И ещё один важный момент: если кому-то из доноров не понравилось, что вы с его сайта взяли статью (чаще, конечно полностью весь сайт), не стоит ругаться и доказывать, что вы раньше него опубликовали данную информацию. 1. Всё равно не поверит. 2. Поисковые системы сейчас умные, по любому посчитают оригиналом тот текст, который раньше был проиндексирован. 3. Все эти дебаты до лампочки, потому что поисковикам глубоко наплевать, кто раньше опубликовал тексты, вы, или тот, у кого вы их своровали. У них своя логика, и свои мнения на это дело. Как в том анекдоте про больниццу:

    Проходит утренний осмотр, врач смотрит больного, назначает лекарство, идёт к следующей койке. Ощупывает пациента и говорит:
    - В морг
    а сам пошёл дальше.
    Больной вскакивает, кричит:
    - Доктор, как же так, я ведь ещё живой
    На что грозный санитар гневно парирует:
    - Врач сказал в морг, значит в морг. Он лучше знает.


    С поисковыми системами точно также. Даже Богу неизвестно, почему один сайт висит полгода пустой, или забитый абракадаброй, и выходит на 1-е позиции, а на другом ежедневные новости, и всё на неизвестном месте.

    Надо вырабатывать свои собственные стратегии того, что для выбранной вами тематики, по вашему мнению подойдёт, а что нет. Ещё, иногда неплохо и своей головой поработать, написать хоть что-то уникальное. пусть и другие имеют что своровать. Иначе,- несправедливо получается.
     
    Последнее редактирование: 13 июл 2012
  3. zilon

    zilon New Member Пользователи

    Регистрация:
    24 дек 2011
    Сообщения:
    80
    а что скажите про этот инцедент Ссылки недоступны для гостей ?

    Суд подтвердил взыскание с topnews.ru 300 тыс рублей за копипаст :eek:

    то есть лучше не парсить "крутые" сайты у которых есть офисы, редакторы, менеджеры ?
     
  4. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Редакторы, офисы, менеджеры тут ни при чём. Не забывайте в какое время живём. Всё это подтасовки для стращания. "Вась, давай ты прикинешься, что мы тебя осудили, а мы, прикинемся, что ты у нас статью украл". Ложь на лжи в данной статье, и ложью понукаемая.

    Прежде всего, новостные сайты для того и существуют, чтобы люди с них новости брали. Второе, вы видимо невнимательно читали: какие-то вшивые 6 статей послужили поводом подачи в суд (1), потом, 300 тыщ перешли в 53 (2), затем также плавно перетекли в 9 тыщ (3). В конце концов, думаю, два "братана", сходили в ближайший бар и выпили (вместе с судьёй) по бутылочке пива за организованный фарс (и то, за деньги того, кто был заказчиком).

    Так называемая "крутизна сайта" в наше время говорит только об уровне "продажности" владельцев. Других форм "крутых сайтов" просто не существует, никому не дадут прыгнуть "выше батьки". А кто такой батька... "У нас в семье всегда все решения принимает папа. А кто у нас сегодня будет "папой",- решает мама".
     
  5. zilon

    zilon New Member Пользователи

    Регистрация:
    24 дек 2011
    Сообщения:
    80
    А как защитить ворованный контент? Сделать страничку - правила пользования сайтом и там написать - "Весь контент присылают посетители сайта, мы не имеем к нему никакого отношения..." или как?
     
  6. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Использовать спарсенное как источник вдохновения, и на его основе писать свои тексты. Уникальные.
     
  7. zilon

    zilon New Member Пользователи

    Регистрация:
    24 дек 2011
    Сообщения:
    80
    это не вариант, потому что в день по 2-5 К новостей парсю и импотрирую и если у меня будет уник то это повод чтобы меня парсили, так что вообще не вариант:(

    у меня прога есть FSViewer она изображения в массовом порядке уменьшает но может водяные знаки на картнки наложить... я думаю может ватермарки накладывать?
     
  8. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Тем лучше, если тебя будут парсить. ПС сейчас смотрят откуда взята инфа, даже если нет обратной ссылки, и повышают уровень тех, кто ближе к оригиналу

    Ватермарки, если большие, то сайт превращается в помойную яму. Если маленькие,- смысла особого нету, разве что будет как ссылка на твой сайт. Что касается ПС, они очень хорошо распознают картинки,- где источник. Не помогает ни ватермарк, ни перекос, ни обрезание, ни даже изменение цветовых оттенков. Так что ватермарк только испортит вид.
     
  9. kagorec

    kagorec Администратор Команда форума Администратор

    Регистрация:
    3 янв 2011
    Сообщения:
    4.432
    Адрес:
    Latvia
    Если вы так наивно подразумеваете уникализировать скачанные картинки то стоит посмотреть видео где говориться и показываются алгоритмы дублированных картинок Яндекса.
    Видео о том, как Яндекс обрабатывает изображения для исключения дубликатов - habrahabr.ru/post/143667/
     
  10. Valiks

    Valiks New Member Супер Модератор

    Регистрация:
    18 янв 2012
    Сообщения:
    554
    Адрес:
    Всё время в скэйпе
    Хорошее видео, приятный дяденька, спасибо за ссылку, но показано только самое основное, достаточное чтобы понять суть вопроса, но недостаточное чтобы понять тонкости "борьбы" с Яндексом.
     
  11. Aurum

    Aurum New Member Пользователи

    Регистрация:
    13 апр 2013
    Сообщения:
    2
    Ну бывают исключения!
    К примеру имеется сайт Ссылки недоступны для гостей или другие. Он решил увеличить круг сайтов на которых будут размещены объявления например на Ссылки недоступны для гостей. В ручную размещать лень и очень долго вот парсер здорово поможет...
     

Поделиться этой страницей