
Во время недавнего подкаста Джон Мюллер и Мартин Сплитт из Google не согласились с некоторыми экспертами по AI SEO, которые утверждают, что упрощенные страницы, ориентированные на контент, показывают лучшие результаты в поисковых системах на базе искусственного интеллекта. Они объяснили, что элементы, которые эти SEO-специалисты часто удаляют, на самом деле полезны для хорошего ранжирования.
Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.
Купить на падении (нет)Неконтентные части веб-страниц имеют значение.
Проще говоря, HTML создает контент, который вы видите на веб-страницах – он сообщает веб-браузерам и инструментам, таким как программы чтения с экрана, как отображать информацию, чтобы люди могли легко просматривать и понимать ее.
Как SEO-эксперт, я слежу за работой Мартина Сплитта о том, как ИИ и большие языковые модели (LLM) взаимодействуют с веб-сайтами, и он поднимает важный вопрос: стандартный HTML не всегда является лучшим форматом для предоставления контента этим «AI-посетителям». Проблема в том, что HTML включает в себя много кода – например, элементы стилизации и навигации – которые LLM не нужны, когда они просто пытаются понять фактическую информацию на странице. По сути, это шум, который мешает.
https://www.searchenginejournal.com/wp-json/sscats/v2/tk/Middle_Post_Text
Основное преимущество Markdown заключается в том, что он позволяет создавать контент, не беспокоясь о сложном HTML-коде, что облегчает его чтение как для людей, так и для вспомогательных технологий, таких как программы чтения с экрана.
Люди полагают, что упрощение текста помогает большим языковым моделям (LLMs), поскольку это уменьшает объем данных, или «токенов», которые им необходимо обрабатывать. Представьте себе просмотр HTML-файла в текстовом редакторе перед его отображением в браузере – его трудно понять из-за всего дополнительного кода и тегов форматирования. Он полон ненужных элементов, которые затрудняют поиск фактического контента.
Даже если Markdown не отображается корректно, исходный файл остаётся структурированным и легко читаемым в текстовом редакторе. Например, ссылка по-прежнему будет показывать сам текст ссылки, за которым следует URL, заключённый в квадратные, а затем обычные скобки. Если бы у меня был только чистый текст, я бы ожидал увидеть его именно так и, вероятно, работал бы с ним таким образом.
Как человек, который построил много веб-сайтов, я часто думал о том, как обрабатывать ссылки, когда вы *не можете* сделать их кликабельными. Если бы я просто писал обычный текст, например, в электронном письме, я обычно указывал бы, что должно быть ссылкой, с помощью какого-то описательного текста, а затем чётко объяснял *куда* пользователю нужно перейти, чтобы найти эту информацию. Речь идёт о том, чтобы сделать понятным пункт назначения, даже если им придётся вводить его вручную.
Я считаю, что эта простота, вероятно, является причиной, по которой люди считают её более подходящей для обработки информации компьютерами, чем, например, HTML.
Преобразование HTML в текст — тривиальная задача.
Согласно Мюллеру и Сплитту, хотя HTML может показаться сложным, поисковым системам на самом деле довольно просто его обрабатывать и понимать. Это означает, что основное преимущество использования Markdown для LLM – упрощение сканирования и индексации контента – на самом деле недействительно, поскольку HTML уже легко обрабатывается.
Работая с веб-сайтами на протяжении многих лет, я видел, насколько старше и более устоявшимся является HTML по сравнению с такими вещами, как Markdown. Из-за этого, поисковые краулеры *действительно* научились понимать HTML. Это почти что вторая натура для них. Кроме того, удаление HTML для получения только текстового содержимого невероятно просто – существует множество инструментов и библиотек, которые делают это автоматически. Поэтому, когда краулер пытается понять, о чём страница, он, скорее всего, сосредотачивается на структуре HTML.
Markdown не подходит для обнаружения контента.
Обнаружение происходит, когда веб-краулер поисковой системы находит страницы на веб-сайте, а также находит ссылки на страницы на других веб-сайтах. Именно так поисковые системы узнают, какой контент существует в сети.
Splitt указал, что markdown в основном фокусируется на самом тексте, не учитывая, как страница вписывается в более крупный веб-сайт. Это может затруднить для поисковых систем понимание связей между страницами через ссылки, препятствуя тому, насколько легко люди могут находить контент.
Хотя Markdown отлично подходит для фокусировки на самом контенте, он часто удаляет такие элементы, как ссылки, навигация и заголовки. Понимание этих HTML-компонентов по-прежнему имеет решающее значение, поскольку они определяют структуру веб-страницы и ее место в рамках всего сайта.
Как эксперт по SEO, потеря этой функции определенно была бы неудачей. Это может негативно повлиять на то, как Google сканирует и индексирует контент в Discovery, что совсем не идеально.
Вывод
После многих лет работы с веб-сайтами и изучения принципов работы поисковых систем – в основном, чтения патентов и научных работ – я понял, что они не просто видят сайт как набор отдельных страниц. Они понимают взаимосвязи *между* этими страницами, группируя их по темам или разделам. Но это идет еще дальше; они видят весь мой веб-сайт как единое целое. И если действительно посмотреть со стороны, мой сайт не существует в изоляции. Он является частью огромной сети сайтов, все они связаны между собой и естественным образом организуются в различные области и уровни авторитета.
Чтобы улучшить рейтинг веб-сайта в результатах поиска, важно рассматривать общую картину *и* мелкие детали – понимать, как всё связано. Это связано с тем, что сами поисковые системы анализируют веб-сайты именно таким образом.
Кажется, многие SEO-стратегии, ориентированные на искусственный интеллект, чрезмерно обеспокоены тем, чтобы сделать контент легко читаемым для AI-программ и поисковых ботов. Хотя обеспечение возможности сканирования и индексации контента важно, текущий акцент на использовании простых markdown файлов упускает из виду базовый факт: невероятно просто извлекать контент непосредственно со стандартной веб-страницы. Это делает стремление к markdown в значительной степени ненужным.
Помимо этих проблем, существует также вопрос доверия. Поисковые системы раньше полагались на так называемый мета-тег ключевых слов, чтобы понять, о чём веб-страница. К сожалению, владельцы веб-сайтов и SEO-эксперты быстро начали злоупотреблять им, заполняя его ключевыми словами, по которым они хотели ранжироваться, даже если эти ключевые слова на самом деле не соответствовали содержанию страницы.
Я не утверждаю, что кто-то намеренно нечестен, но поскольку поисковый трафик напрямую влияет на доход, люди часто отдают приоритет результатам, а не лучшим практикам. В конечном итоге, поисковые системы не будут надёжно распознавать markdown как основную версию контента, когда они могут легко получить доступ к исходному HTML.
В развитие пунктов, поднятых Мюллером и Сплиттом, Google утверждает, что требование к SEO, ориентированному на ИИ, использовать простой текст удаляет важные детали и смысл.
Посмотрите Search Off The Record Эпизод 111 здесь:
https://www.youtube.com/watch?v=Vkn3R6DUJ34
Смотрите также
- Структурированные данные в 2024 году: ключевые закономерности открывают будущее открытий искусственного интеллекта [исследование данных]
- Google Персонализирует Некоторые Обзоры ИИ и Ответы в Режиме ИИ
- Шок €80 миллионов от энергетического просчета во Франции: на помощь приходит Биткойн!
- e-pick: Ваши заветные карты ждут! 🎉
- Федеральный судья постановил, что Google является монополией и будет распущен или столкнется с серьезными ограничениями
- Акции AKRN. Акрон: прогноз акций.
- Обновление Google о спаме, декабрь 2024 г. Жесткое деиндексирование и понижение рейтинга некоторых сайтов
- Google тестирует то, что люди говорят в результатах поиска коротких видео
- Google тестирует новый дизайн пакета изображений в поиске
- Google тестирует новый дизайн значков по умолчанию
2026-06-16 12:41