Как же я люблю Microsoft. Вот, например, есть у них поисковик Bing (им, кстати, кто-нибудь пользуется?). Авторы crawler’ов для этого поисковика совершенно не умеют работать с UTF-8. Почему-то только они присылают запросы с неверно закодированными кириллическими буквами.
Пример. Есть страница «работа» :: [dikmax’s blog]. Везде в ссылках на эту страницу у меня написано <a href=”/tag/работа”>
.
Какую страницу запрашивают все браузеры и поисковики: /tag/%D1%80%D0%B0%D0%B1%D0%BE%D1%82%D0%B0
. А что же пытается получить msnbot: /tag/%D1%E2%82%AC%D0%B0%D0%B1%D0%BE%D1%E2%80%9A%D0%B0
.
D1 (incomplete sequence)
U-000020AC E2 82 AC
U-00000430 D0 B0
U-00000431 D0 B1
U-0000043E D0 BE
D1 (incomplete sequence)
U-0000201A E2 80 9A
U-00000430 D0 B0
Я не представляю, какое преобразование нужно было сделать, чтобы получить такую последовательность байт.
Решение понятно, нужно кодировать ссылки на стороне сервера. Но зачем, если и так всё работает? А Bing — не тот поисковик, под который стоит подстраиваться. Хотя когда-нибудь я поправлю и это.
Хочется что-то добавить или сказать? Я всегда рад обсудить. Пишите на me@dikmax.name.