Форум программистов
 

Восстановите пароль или Зарегистрируйтесь на форуме, о проблемах и с заказом рекламы пишите сюда - alarforum@yandex.ru, проверяйте папку спам!

Вернуться   Форум программистов > Клуб программистов > Свободное общение
Регистрация

Восстановить пароль
Повторная активизация e-mail

Купить рекламу на форуме - 42 тыс руб за месяц

Ответ
 
Опции темы Поиск в этой теме
Старый 04.09.2013, 10:31   #1
myorient
Пользователь
 
Регистрация: 27.05.2013
Сообщений: 24
По умолчанию Поисковый робот

Ребят, ну давайте пообсуждаем поисковых роботов, а!
Только сразу предупреждаю:
1. Я не собираюсь составлять конкуренцию гугл
2. Не надо говорить что у меня не хватит ресурсов времени сил итд итп
3. Поисковик нужен просто для моего портала.

Итак, меня интересует именно робот (crawler, spider), а не поисковик готовой информации (sphinx не при делах). Может есть возможность написать такой на пхп?
myorient вне форума Ответить с цитированием
Старый 04.09.2013, 10:44   #2
Smitt&Wesson
Старожил
 
Аватар для Smitt&Wesson
 
Регистрация: 31.05.2010
Сообщений: 13,964
По умолчанию

Цитата:
Сообщение от myorient Посмотреть сообщение
Может есть возможность написать такой на пхп?
Если есть свой выделенный сервер, то почему бы и нет. Но, судя по вашим заявлениям - такового не имеется. Значит, категоричное - нет.
1. PHP - серверный язык (интерпретатор). То, что делает поисковик, нагрузит сервер так, что провайдеры повесяться не отходя от сервера, это в худшем случае. В лучшем, просто ограничат Вам трафик. После нескольких предупреждений - просто отключат.
2. Если есть безлимитная линия, Ваши шансы немножко выше. Пишете прогу на C++ или на Pascal, компилите в ехзешник и запускаете. В этом случае, нагрузка на сервак будет в пределах пропускной способности канала.
3. Лучший вариант, это выделенная оптоволоконная линия. Но по стоимости тарифов, Вы не потяните и одну жилу, а на такие линии, тянется кабель не менее 24-х жил.
Так что, пользуйтесь Гуглом, Яндексом, Mail.ru, Bing и т.д. и не заморачивайтесь.
Пиши пьяным, редактируй трезвым.
Справочник по алгоритмам С++ Builder
Smitt&Wesson вне форума Ответить с цитированием
Старый 04.09.2013, 11:45   #3
myorient
Пользователь
 
Регистрация: 27.05.2013
Сообщений: 24
По умолчанию

Цитата:
Если есть свой выделенный сервер
Есть
Цитата:
Если есть безлимитная линия
Есть
Цитата:
Лучший вариант, это выделенная оптоволоконная линия
Нет
Цитата:
Так что, пользуйтесь Гуглом, Яндексом, Mail.ru, Bing и т.д. и не заморачивайтесь.
Опять 25 Я говорю хочу свой поисковик!
myorient вне форума Ответить с цитированием
Старый 04.09.2013, 13:37   #4
Smitt&Wesson
Старожил
 
Аватар для Smitt&Wesson
 
Регистрация: 31.05.2010
Сообщений: 13,964
По умолчанию

Цитата:
Цитата: Если есть свой выделенный сервер
Есть

Цитата: Если есть безлимитная линия
Есть
В чём вопрос? Если всё это есть, то конечно можно. А если у Вас ещё есть примерно около 1 млн деревянных, то вобще не вопрос. Нанимаете программистов, пишете ТЗ, платите им денюжку, периодически даёте волшебные пинки и, о чудо, свой поисковик!
Собственно многие (не все) поисковики с этого и начинали свою деятельность. Помню был такой поисковик Апорт, так он ещё с ФИДО начинался, а работал на простой IBM386-й.
Пиши пьяным, редактируй трезвым.
Справочник по алгоритмам С++ Builder
Smitt&Wesson вне форума Ответить с цитированием
Старый 04.09.2013, 14:17   #5
Stilet
Белик Виталий :)
Старожил
 
Аватар для Stilet
 
Регистрация: 23.07.2007
Сообщений: 57,792
По умолчанию

Цитата:
Я говорю хочу свой поисковик!
Ну если проблема только в хотении то да - его можно писануть на любом языке.
Надо просто изучить схемы пауков.
I'm learning to live...
Stilet вне форума Ответить с цитированием
Старый 04.09.2013, 14:53   #6
myorient
Пользователь
 
Регистрация: 27.05.2013
Сообщений: 24
По умолчанию

Цитата:
Нанимаете программистов
Зачем. Я сам прогер пхп дельфи...
Цитата:
Надо просто изучить схемы пауков.
В этом то и проблема - никак не могу додуматься как писать на PHP
myorient вне форума Ответить с цитированием
Старый 04.09.2013, 14:55   #7
Smitt&Wesson
Старожил
 
Аватар для Smitt&Wesson
 
Регистрация: 31.05.2010
Сообщений: 13,964
По умолчанию

Цитата:
Сообщение от Stilet Посмотреть сообщение
Надо просто изучить схемы пауков.
А зачем? Ему ведь не нужно делать индексацию. Подойдёт обычный стек. Только нужен хороший алгоритм, который предотвращает зацикливание.
Например, два сайта, ссылаються друг на друга. Причём один сайт ссылается на ту страницу, на которой стоит ссылка на него. Если не предпринять никаких мер, поисковик будет бесконесно прыгать со страницы на страницу.
Пиши пьяным, редактируй трезвым.
Справочник по алгоритмам С++ Builder
Smitt&Wesson вне форума Ответить с цитированием
Старый 04.09.2013, 16:12   #8
Stilet
Белик Виталий :)
Старожил
 
Аватар для Stilet
 
Регистрация: 23.07.2007
Сообщений: 57,792
По умолчанию

Цитата:
Ему ведь не нужно делать индексацию. Подойдёт обычный стек. Только нужен хороший алгоритм, который предотвращает зацикливание.
Я имел ввиду что нужно почитать теорию о том как спайдеры работают
Как в инет выходят, как ссылки определяют. А есть ведь и спайдеры, которые разбирают AJAX в порталах, и из них формируют инфу.
Вот об этом я и говорил - технологию нуна изучить.
I'm learning to live...
Stilet вне форума Ответить с цитированием
Старый 04.09.2013, 16:19   #9
Smitt&Wesson
Старожил
 
Аватар для Smitt&Wesson
 
Регистрация: 31.05.2010
Сообщений: 13,964
По умолчанию

Цитата:
Сообщение от Stilet Посмотреть сообщение
Вот об этом я и говорил - технологию нуна изучить.
Ну, это само собой. Но вот я сколько ни читал, как то всё с середины. Вот робт находит сайт, если ссылка не "местная", он её запихивает в стек, обследует следующий и т.д... Но нигде я не нашел, а откуда он плясать начинает? Т.е., стек ещё пуст, ни одной ссылки, а тем более рейтингов нет. Где же та печька, от которой идё пляска?
Пиши пьяным, редактируй трезвым.
Справочник по алгоритмам С++ Builder
Smitt&Wesson вне форума Ответить с цитированием
Старый 04.09.2013, 17:26   #10
rpy3uH
добрый няша
Старожил
 
Аватар для rpy3uH
 
Регистрация: 29.10.2006
Сообщений: 4,804
По умолчанию

Цитата:
Сообщение от Smitt&Wesson Посмотреть сообщение
1. PHP - серверный язык (интерпретатор). То, что делает поисковик, нагрузит сервер так, что провайдеры повесяться не отходя от сервера, это в худшем случае. В лучшем, просто ограничат Вам трафик. После нескольких предупреждений - просто отключат.
В каждом тарифе на сервер есть регламентированный траффик. Сколько не нагружай канал, хостингу плевать, а как толька траффик кончится, то сервер отвалится.

Цитата:
Сообщение от Smitt&Wesson Посмотреть сообщение
2. Если есть безлимитная линия, Ваши шансы немножко выше. Пишете прогу на C++ или на Pascal, компилите в ехзешник и запускаете. В этом случае, нагрузка на сервак будет в пределах пропускной способности канала.
3. Лучший вариант, это выделенная оптоволоконная линия. Но по стоимости тарифов, Вы не потяните и одну жилу, а на такие линии, тянется кабель не менее 24-х жил.
В мухостарнске интернет со скоростью 80 Мбит/с стоит примерно 1000 р., так что это не проблема
rpy3uH вне форума Ответить с цитированием
Ответ


Купить рекламу на форуме - 42 тыс руб за месяц

Опции темы Поиск в этой теме
Поиск в этой теме:

Расширенный поиск


Похожие темы
Тема Автор Раздел Ответов Последнее сообщение
Поисковый движок myorient Софт 9 16.08.2013 16:48
поисковый оператор Case denniskvazaryes SQL, базы данных 1 17.08.2012 12:42
Поисковый запрос к MYSQL victorshkoda БД в Delphi 3 20.01.2012 10:20
Поисковый системы serres Обсуждение статей 2 25.03.2010 15:00
Поисковый системы serres PHP 1 10.03.2010 01:00