alextretyak
Newbie | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Paha_W Цитата: И на мой взгляд не стоит строить весь сайт на данной технологии | Почему? ИМХО, за этим будущее.. в любом случае. Двигаться то больше некуда. 6epcepk Цитата: Беспокоит вопрос о том, как будут боты индексировать сайт. | Я сейчас вот как раз этим вопросом активно и занимаюсь. И пока... что-либо хорошего сказать не могу. По-хорошему надо подождать недельки две, когда цикл поисковиков окончится, хотя уже сейчас видно, что что-то идёт не так. Несколько дней назад я зарегил свой форум в основных поисковиках (Google, Yandex и Rambler). Последний выбрал потому, что после регистрации в Ramblers Top 100 этот поисковик хранит зарегеные сайты в "быстрой базе" и вносит страницы в индекс не раз в 2 недели, как "для всех", а примерно раз-два в сутки. На данный момент статистика обращений (самописный лог) показала (здесь только обращения роботов): Fri, 21 Apr 2006 09:23:39 -- /?Lang=ru :: Yandex/1.01.001 (compatible; Win16; I) (основной индексирующий робот Яндекса) Fri, 21 Apr 2006 12:41:18 -- /?Lang=ru :: Yandex/1.01.001 (compatible; Win16; I) Sat, 22 Apr 2006 00:35:33 -- /?Lang=ru :: WebAlta Crawler/1.3.6 (http://www.webalta.ru/bot.h... Sat, 22 Apr 2006 14:43:09 -- /?Lang=ru :: msnbot/1.0 (+http://search.msn.com/msnbot.htm) Как видно, результаты пока неутешительные.. хотя... Вообще, AFAIK, поиковые роботы действуют примерно по такой схеме: они обходят свой список-URL, загружая документы, а также добавляя в список-URL новые ссылки с просмотренных страниц - это образует цикл, длящийся около суток. На следующем цикле обходятся документы с учётом новых ссылок. (Если быть более точным, то происходит это как то так: весь список-URL, известных роботу, делится на несколько частей, за каждый такой "миницикл", паук обходит одну из частей списка, попутно запоминая новые URL (кот-х ещё нет в полном списке), найденные на просмотренных страницах. И на следующем цикле обходятся страницы из следующей части списка-URL, а также новые URL, запомненные в пред. цикле). В основную индексную базу изменения вносятся же гораздо реже. Пауки сначала лишь сохраняют "у себя" загруженные документы, и лишь раз в две недели добавляют их в индекс. Также есть множетсво вспомогательных роботов (простукивалок, зеркальщиков и т. д.), кот-е обходят страницы чаще или реже основного индексирующего робота (который сам может состоять из тучи серверов). Ещё я слышал, что поисковики сканируют страницы примерно так же, как их отображает Lynx. Но в этом текстовом браузере мой форум прекрасно обозревается, однако почему-то поисковики дальше заглавной страницы не пошли... то ли не заметили предназначенной для них (и текст. браузеров) ссылки, то ли просто ещё не успели (цикл не завершился). Rambler же, кот-й должен чаще всего сканировать сайт, вообще не появлялся на гл. странице. Вообще, говорят, Rambler и Aport не индексируют "динамические" страницы (у кот-х в URL присутствуют ? или &), но вот что написано в http://www.rambler.ru/doc/faq.shtml: Рамблер обрабатывает все "динамические" страницы с именами вида *.asp*, *.php*, *.pl*, */cgi-bin/* и т. п. для посещаемых сайтов (по данным top100), а также сайтов, содержащих уникальную информацию, полезную пользователям поисковой машины. Для остальных сайтов обрабатывается часть таких страниц. Только что значит "обрабатывается часть таких страниц"... Ну ладно. У меня просто в логе не учитывались обращения к "/", т.е. до редиректа на "/?Lang=ru", т.е. возможно на главную страницу Rambler всё же зашёл, но увидел, что она динамеческая, что ему не очень нравится, и не пошёл по редиректу. Сейчас вот добавил, в логе теперь эти обращения будут сохраняться... посмотрю, подтвердится предположение или нет. Если кто ещё что знает про принципы работы поисковиков, прошу поделиться, а то просто так сидеть ждать "возможного" обхода пауками 2-4 недели как-то скучно. А потом после каждого исправления ещё 2 недели ждать... кошмар... | Всего записей: 23 | Зарегистр. 19-03-2006 | Отправлено: 11:25 23-04-2006 | Исправлено: alextretyak, 11:43 23-04-2006 |
|