Google о предоставлении Markdown-страниц краулерам LLM

Джон Мюллер из Google затронул идею предоставления простых страниц в формате markdown непосредственно AI-краулерам и ботам. Хотя он и не дал однозначного ответа «да» или «нет», он выделил несколько потенциальных проблем и моментов, которые следует учитывать, если вы решите это сделать.

Markdown — это простой способ форматирования текста с использованием специальных символов. Он используется для создания документов, которые можно легко преобразовать в HTML, делая их доступными для просмотра в веб-браузерах.

Кто-то на Reddit спросил о потенциальных преимуществах и опасностях предоставления моделям ИИ для обработки текста в формате raw Markdown.

Джон ответил с этими опасениями:

  • Вы уверены, что они вообще могут распознать MD на веб-сайте как что-то отличное от текстового файла?
  • Могут ли они разбирать и переходить по ссылкам?
  • Что произойдет с внутренней перелинковкой вашего сайта, заголовком, нижним колонтитулом, боковой панелью, навигацией?
  • Одно дело вручную дать ему MD файл, а совсем другое — предоставить ему текстовый файл, когда они ищут HTML страницу.

Джон опубликовал пост в Bluesky, критикуя практику преобразования веб-страниц в markdown. Он отметил, что большие языковые модели на самом деле могут обрабатывать изображения, предполагая, что было бы проще просто использовать изображения для всего веб-сайта.

Поэтому имейте в виду эти вопросы, когда будете рассматривать возможность сделать это.

Благодарность Gagan за это: Hat tip to Gagan on this:

Задумываетесь об использовании markdown файлов для краулеров больших языковых моделей (LLM)? Джон Мюллер из Google поднял некоторые вопросы о том, могут ли краулеры правильно распознавать и обрабатывать markdown файлы на веб-сайте, или они видят их просто как обычный текст. Он также спрашивает, как это может повлиять на внутренние ссылки и заголовки на вашем сайте.

‘ Gagan Ghotra (@gaganghotra_) February 3, 2026

Также ознакомьтесь:

Я недавно добавил функцию на свой веб-сайт, которая позволяет инструментам искусственного интеллекта и поисковым системам получать доступ к страницам в упрощенном текстовом формате. Я думал, что это будет использоваться несколько раз, но в течение часа я получал сотни запросов от AI ботов, таких как ClaudeBot, GPTBot и OpenAI’s SearchBot!

‘ Dries Buytaert (@Dries) January 14, 2026

Смотрите также

2026-02-04 15:44

Отчёт Google Ad Network о недействительных кликах: Мошенничество против Случайных.

Майк Райан поделился информацией о недействительных кликах в Google Ad Network, разделив их на клики, которые, вероятно, были мошенническими или случайными. Данные показывают, что Google Display Network видит наибольшее общее количество недействительных кликов, в то время как клики от поисковых партнеров чаще идентифицируются как мошеннические.

Майк Райан поделился в LinkedIn информацией о том, что он проанализировал более 550 миллионов кликов по электронной коммерции за последний квартал 2025 года. Он использовал метрику Google Ads под названием ‘general invalid clicks’, которая является довольно новой.

Он обнаружил, что в Google Display Network самый высокий процент недействительных кликов. Вот краткое изложение его выводов:

  • Google Display Network имеет самый высокий процент недействительных кликов, почти 1 из 5 является IVT. Тем не менее, подавляющее большинство, по-видимому, не являются мошенническими. Я предполагаю, что большинство из них — случайные клики.
  • Более 10% кликов в Search Partner Network являются недействительными, но в отличие от GDN, явное большинство этих кликов являются ‘сложными’, то есть, вероятно, с плохими намерениями. Как всегда, я не являюсь поклонником SPN.
  • Хотя Google Search подвергается меньшему количеству атак, поразительно видеть равное разделение между доброкачественными и вредоносными ботами, учитывая, сколько доброкачественных ботов ежедневно перемещаются по Google.
  • Другие собственные и управляемые инвентари Google (YT, Discover, Maps, Gmail) все, как сообщается, имеют уровни SIVT настолько низкими, что их можно округлить. Хотя к ним чаще всего получают доступ через приложения и авторизованные учетные записи, эти показатели все еще кажутся слишком хорошими, чтобы быть правдой. Есть какие-либо мысли на этот счет?
  • Кросс-сетевая реклама, кстати, — это PMax. Это смесь всего остального, но с точки зрения взвешенного количества кликов, это в основном Google Search (включая Shopping) и немного YouTube.

Вот его диаграмма, отображающая эти данные:

Отличная работа, Майк!

Смотрите также

2026-02-04 15:45

Лимит файлов для Googlebot составляет 15МБ, но 64МБ для PDF и 2МБ для других типов файлов.

На протяжении многих лет Google имел возможность получать доступ к первым 15МБ веб-страницы. Недавно они обновили свою документацию, чтобы указать, что теперь они могут получать доступ до 64МБ PDF-файла, и к первым 2МБ большинства других типов файлов, которые они поддерживают.

Как SEO-эксперт, я хотел уточнить кое-что о файлах отклонения ссылок. Хотя ограничения в 64МБ и 2МБ – это не совсем *новая* информация, я понял, что не затрагивал их конкретно в своем предыдущем контенте. Я *действительно* осветил тот факт, что Google сканирует до 2МБ файла, но я не выделял это ограничение в 2МБ отдельно ранее. Так что просто хотел убедиться, что этот момент понятен!

При сканировании для Google Поиска, Googlebot сканирует первые 2 МБ поддерживаемого типа файла и первые 64 МБ PDF-файла. С точки зрения рендеринга, каждый ресурс, на который ссылается HTML (например, CSS и JavaScript), извлекается отдельно, и каждый запрос ресурса ограничен тем же ограничением размера файла, которое применяется к другим файлам (за исключением PDF-файлов).

Когда размер файла достигает максимального, который может обработать Googlebot, он прекращает загрузку и отправляет только ту часть, которую уже получил, для индексации. Это ограничение размера применяется к несжатому размеру файла. Имейте в виду, что другие Google-краулеры, такие как Googlebot Video и Googlebot Image, могут иметь различные ограничения по размеру.

Затем Google также обновил этот документ, добавив ограничение в 15 МБ, но это было не ново — теперь там говорится:

По умолчанию, краулеры и извлекатели Google сканируют только первые 15МБ файла. Любой контент за пределами этого лимита игнорируется. Отдельные проекты могут устанавливать различные лимиты для своих краулеров и извлекателей, а также для разных типов файлов. Например, краулер Google может установить больший лимит размера файла для PDF, чем для HTML.

Google недавно обновил свою документацию относительно того, сколько данных могут обрабатывать его веб-краулеры. Они переместили информацию об стандартных лимитах размера файлов для всех Google краулеров и fetchers в более центральное место в документации краулеров. Это также позволило им уточнить конкретные лимиты размера файлов для Googlebot, их основного веб-краулера. Google объяснил, что предыдущее местоположение для лимитов по умолчанию было неидеальным, поскольку оно применялось ко всем их инструментам, а не только к Googlebot.

Более точные детали полезно знать.

Смотрите также

2026-02-04 15:46

Первый зимний олимпийский дудл Google 2026 года: Кёрлинг.

Google запустила специальный анимированный логотип, называемый Doodle, чтобы отпраздновать Зимние Олимпийские игры 2026 года. Первым видом спорта, представленным в Doodle, является керлинг, и он показывает спортсмена, скользящего камнем для керлинга по льду.

Вот этот GIF:

Google написала: ‘Этот Doodle отмечает вид спорта Кёрлинг.’

Зимние Олимпийские игры 2026 года, официально 25-е Зимние Олимпийские игры, известные как Milano Cortina 2026, — это международное спортивное мероприятие, которое пройдет с 6 по 22 февраля 2026 года. Мероприятия будут проходить в различных местах по всей Ломбардии и на северо-востоке Италии.

Кёрлинг — это командный вид спорта, в который играют на льду. Игроки скользят отполированными гранитными камнями, называемыми роками, к круглой мишени, называемой домом. Две команды по четыре игрока поочередно делают ходы, при этом каждый игрок бросает по два камня в каждом энде. Цель игры — набрать очки, имея больше всего камней, расположенных ближе всего к центру дома после того, как все камни были брошены в энде. Типичная игра состоит из восьми-десяти эндов, и очки подсчитываются после каждого из них.

Смотрите также

2026-02-04 14:14

ChatGPT С Главными Новостями & Больше Визуальных Информационных Панелей

OpenAI делает ChatGPT более визуально привлекательным, добавляя функции, похожие на панели знаний Google и новостные сводки. Эти визуальные обновления появляются, когда вы спрашиваете о людях, местах, продуктах или концепциях.

OpenAI объявила, что ответы ChatGPT теперь стали более визуально привлекательными и простыми для чтения. Для распространенных вопросов вы можете увидеть быстрые визуальные элементы, такие как графики для обновлений команды, преобразования единиц измерения или простые вычисления.

Гленн Гейб вытащил несколько примеров этого:

Он продемонстрировал новую функцию, которую описал как похожую на панель знаний, и поделился ею на X сегодня.

И затем этот тип интерфейса «Top Stories» из ChatGPT:

Заставляет задуматься, откуда OpenAI берет эти новостные истории и индекс?

Как цифровой маркетолог, мне очень интересно наблюдать за тем, как OpenAI и Google всё больше конкурируют и отражают подходы друг друга со своими различными платформами и интерфейсами. Определенно, сейчас ощущается динамичный и быстро развивающийся ландшафт.

Смотрите также

2026-02-03 17:15