Поисковый журнал — Страница 149

YouTube представляет инструменты искусственного интеллекта для преодоления творческих блоков

28.11.2024 от googleupdate

Как опытный специалист по цифровому маркетингу с более чем десятилетним опытом работы за плечами, я должен сказать, что последнее обновление YouTube на вкладке «Вдохновение» — не что иное, как революция! Потратив бесчисленные часы на мозговой штурм идей контента и исследование предпочтений аудитории, этот новый инструмент на базе искусственного интеллекта обещает значительно упростить этот процесс.

YouTube обновляет вкладку «Вдохновение» — функцию, призванную помочь создателям контента лучше понимать своих зрителей и соответствующим образом совершенствовать свой контент.

В недавно выпущенном видео компания продемонстрировала будущие возможности искусственного интеллекта, которые будут реализованы в ближайшие несколько месяцев.

Вкладка «Вдохновение», изначально задуманная как вспомогательное средство для исследования, в настоящее время помогает создателям точно определить предпочтения зрителей и области, в которых может не хватать контента.

Новые функции искусственного интеллекта призваны повысить креативность и упростить создание контента.

Персонализированные идеи и понимание аудитории

На обновленной вкладке «Вдохновение» вы найдете пять индивидуальных идей для вашего канала.

Каждая концепция имеет миниатюрное изображение (миниатюру), заголовок, краткое описание (сводку) и данные о взаимодействии с аудиторией (данные об интересах аудитории), что позволяет вам оценить ее актуальность и привлекательность для вашей конкретной аудитории.

Кроме того, у вас есть возможность ввести в командную строку любую тему, а затем ИИ предложит предложения, адаптированные к вашему конкретному запросу.

На «Площадке идей» вы можете персонализировать свою идею, изучая ее под разными углами.

Выберите один из предложенных ракурсов или введите свой собственный.

Playground также предлагает варианты отмены и повтора, чтобы вы не потеряли свою работу.

На игровой площадке у вас есть возможность просматривать контуры и мини-превью (миниатюры) и перемещаться по ним. Система искусственного интеллекта предложит предложения по доработке ваших тем для обсуждения. Вы можете вносить изменения во всю структуру или сконцентрироваться на отдельных сегментах по своему усмотрению.

Альтернативные варианты существуют как для заголовков, так и для миниатюр. Вы можете получить изображения для использования в качестве фона или настроить их перед загрузкой, чтобы иметь представление о том, как они будут выглядеть.

Доступность

Вкладка «Вдохновение» — это обновленная вкладка «Тенденции», ранее бывшая вкладка «Исследования». Это будет центральный центр, где вы сможете использовать ИИ для мозгового штурма идей, схем, заголовков, эскизов и концепций.

YouTube намерен представить эти функции в ближайшие месяцы. Имейте в виду, что эти функции пока не доступны широкой аудитории, поскольку YouTube в настоящее время тестирует их и собирает отзывы от создателей.

Полную демонстрацию смотрите ниже:

Смотрите также

2024-11-28 03:38

Уязвимость плагина защиты от спама WordPress обнаружена более чем на 200 тысячах сайтов

27.11.2024 от googleupdate

Как опытный специалист по цифровому маркетингу с многолетним опытом за плечами, я не могу переоценить важность безопасности веб-сайтов, особенно когда речь идет о плагинах, используемых для таких важных функций, как защита от спама. Недавняя уязвимость, обнаруженная в популярном плагине CleanTalk Anti-Spam WordPress, является ярким напоминанием об этом факте.

Дефект в антиспам-плагине WordPress, который был установлен более 200 000 раз, позволяет устанавливать мошеннические плагины на затронутые веб-сайты. Исследователи безопасности оценили уязвимость на 9,8 из 10, что отражает высокий уровень серьезности, определенный исследователями безопасности.

Снимок экрана с рейтингом серьезности уязвимости CleanTalk

Уязвимость плагина WordPress для защиты от спама CleanTalk

Было обнаружено, что хорошо зарекомендовавший себя межсетевой экран для защиты от спама, использовавшийся более чем в 200 000 случаев, обладает слабостью обхода аутентификации. Эта уязвимость позволяет хакерам получить полный доступ к веб-сайтам, не требуя имени пользователя или пароля. Дефект позволяет злоумышленникам загружать и устанавливать любые плагины, включая вредоносное ПО, тем самым давая им полный контроль над сайтом.

Эксперты по безопасности из Wordfence определили, что проблема в защите от спама CleanTalk, Anti-Spam и FireWall связана с обратной подменой DNS. По сути, это тактика, при которой злоумышленник фальсифицирует информацию, чтобы создать впечатление, что вредоносный трафик исходит с другого IP-адреса или доменного имени. В этом случае злоумышленники могут ввести плагин Anti-Spam в заблуждение, заставив его поверить в то, что вредоносные запросы исходят с самого веб-сайта. Поскольку в плагине отсутствует проверка на подобные манипуляции, злоумышленники успешно получают несанкционированный доступ.

Эта проблема безопасности подпадает под категорию «Отсутствует авторизация». Согласно веб-сайту Common Weakness Enumeration (CWE), это относится к ситуации, когда приложение не обеспечивает должным образом контроль доступа, позволяя неавторизованным пользователям получать доступ к ресурсам, к которым они не должны иметь доступа.

Проще говоря, в системе защиты от спама плагина CleanTalk для веб-сайтов WordPress была обнаружена уязвимость. Этот недостаток позволяет неавторизованным лицам устанавливать и активировать любой плагин, который они хотят, что потенциально позволяет им выполнять вредоносный код на вашем сайте, если также установлен другой уязвимый плагин. Уязвимость связана с обходом авторизации, который происходит с помощью метода обратного подмены DNS, в частности, внутри функции checkWithoutToken во всех версиях до 6.43.2 включительно. Важно как можно скорее обновить плагин CleanTalk, чтобы защитить ваш сайт WordPress от этой проблемы.

Смотрите также

2024-11-27 22:38

Современное руководство по файлу robots.txt: как его использовать, избегая ошибок

27.11.2024 от googleupdate

Как опытный профессионал в области SEO с более чем десятилетним опытом работы за плечами, я могу с уверенностью сказать, что скромный файл robots.txt — это мощный, но часто упускаемый из виду инструмент в нашем цифровом арсенале. За время своего путешествия я видел бесчисленное количество веб-сайтов, которые либо процветали, либо терпели неудачу в зависимости от того, как они использовали этот простой текстовый файл.

Поскольку файл Robots.txt отмечает свое 30-летие, он ставит под сомнение свою значимость на фоне современного искусственного интеллекта и передовых технологий поиска. Примерно так же, как человек, которому исполнилось 30 лет, может задуматься о своей значимости в быстро меняющемся мире.

Спойлер: это определенно так!

Давайте рассмотрим решающую роль, которую этот файл играет в контроле над тем, как поисковые системы просматривают ваш веб-сайт, изучим эффективные способы его использования и определим типичные ошибки, которых следует избегать.

Что такое файл robots.txt?

Файл robots.txt во многом похож на путеводитель или карту у входа в музей, предлагая указания веб-сканерам, таким как Googlebot и Bingbot, при навигации по вашему сайту. Он представляет собой четкий набор инструкций в начале веб-сайта, подробно описывающий области, которые следует изучить или избегать, включая информацию о:

Каким сканерам разрешен/не разрешен вход?
Любые ограниченные области (страницы), которые не следует сканировать.
Приоритетные страницы для сканирования – через XML-объявление карты сайта.

Основная функция — контролировать доступ веб-сканеров к определенным разделам веб-сайта, определяя недоступные области. Благодаря этому сканеры отдают приоритет ценному контенту над менее важным, тем самым экономя краулинговый бюджет.

Что касается файла robots.txt, стоит отметить, что, хотя он и служит руководством для веб-сканеров, не каждый бот соблюдает его правила, особенно вредные или вредоносные. Однако большинство авторитетных поисковых систем считают своей стандартной процедурой следование рекомендациям, установленным в файле robots.txt.

Что содержится в файле robots.txt?

Файлы Robots.txt состоят из строк директив для сканеров поисковых систем и других ботов.

Допустимые строки в файле robots.txt состоят из поля, двоеточия и значения.

Помимо стандартных правил, файлы Robots.txt часто содержат пустые строки для удобства чтения, а также примечания и комментарии, помогающие администраторам веб-сайтов более эффективно управлять своими инструкциями.

Чтобы лучше понять общие элементы файла robots.txt и то, как его используют различные веб-сайты, я изучил файлы robots.txt из 60 популярных доменов, охватывающих такие сектора, как здравоохранение, финансы, розничная торговля и технологии.

Без учета комментариев и пустых строк среднее количество строк в 60 файлах robots.txt составило 152.

Вообще говоря, веб-сайты, принадлежащие крупным издателям или агрегаторам, таким как Hotels.com, forbes.com и nytimes.com, как правило, имеют относительно длинные файлы robots.txt. С другой стороны, веб-сайты, связанные с больницами, такие как pennmedicine.org и hopkinsmedicine.com, обычно имеют более короткие адреса. Файлы robots.txt розничных сайтов обычно имеют средний размер примерно 152 слова.

Проверив все веб-сайты, мы обнаружили, что каждый из них содержит поля «user-agent» и «disallow» в документах robots.txt, и примерно 77% этих сайтов также содержат декларацию «sitemap».

Реже использовались поля, известные как «allow» (используются примерно на 60 % веб-сайтов) и «crawl-delay» (используются примерно на 20 % веб-сайтов). .

Поле	% сайтов, использующих
`пользовательский агент`	100%
`запретить`	100%
`карта сайта`	77%
`разрешить`	60%
`задержка сканирования`	20%

Синтаксис файла Robots.txt

После объяснения различных разделов файла robots.txt давайте углубимся в понимание их значения и того, как они эффективно применяются.

Чтобы узнать о правильном синтаксисе файлов robots.txt и о том, как Google их интерпретирует, ознакомьтесь с руководством Google по использованию robots.txt.

Пользовательский агент

Проще говоря, поле «user-agent» определяет, для какого сканера или бота поисковой системы предназначены данные директивы (например, «disallow», «allow»). Вы можете настроить свои правила для конкретных ботов/сканеров, используя поле «user-agent», или использовать подстановочный знак, чтобы применить правила ко всем сканерам в целом.

Например, приведенный ниже синтаксис указывает, что любая из следующих директив применима только к роботу Googlebot.

пользовательский агент: Googlebot

При формировании правил, которые должны быть применимы ко всем веб-сканерам, вместо указания конкретного из них более эффективно использовать подстановочный знак.

пользовательский агент: *

В файл robots.txt вы можете вставить несколько строк User-Agent, чтобы установить уникальные рекомендации для различных веб-сканеров или кластеров сканеров. Вот пример:

пользовательский агент: *

#Правила здесь будут применяться ко всем сканерам

пользовательский агент: Googlebot

#Правила здесь применимы только к роботу Google

пользовательский агент:otherbot1

пользовательский агент:otherbot2

пользовательский агент:otherbot3

#Правила здесь будут применяться к другимботам1, другимботам2 и другимботам3

Запретить и разрешить

Проще говоря, раздел «запретить» ограничивает доступ к определенным путям для определенных веб-сканеров. И наоборот, раздел «Разрешить» предоставляет доступ к определенным путям для тех же веб-сканеров.

Чтобы сделать ситуацию более понятной для поисковых роботов, таких как Googlebot, которые считают доступными любые URL-адреса, не заблокированные явно, многие веб-сайты упрощают свои правила, указывая только запрещенные пути, используя директиву `disallow`. .

В качестве помощника, например, следующий синтаксис служит сигналом для всех веб-сканеров, предлагая им избегать посещения URL-адресов, соответствующих шаблону «/no-entry».

пользовательский агент: *

запретить: /do-not-enter

#Всем сканерам запрещено сканировать страницы с путем /do-not-enter

При использовании директив «allow» и «disallow» в файле robots.txt крайне важно ознакомиться с последовательностью приоритетов правил, изложенной в руководстве Google.

Как правило, в случае противоречивых правил Google будет использовать более конкретное правило.

В этой ситуации страницы, расположенные по адресу /do-not-enter, не будут проверяться Google, поскольку определенное правило «запретить» имеет приоритет над общим правилом «разрешить».

пользовательский агент: *

разрешить: /

запретить: /do-not-enter

Если ни одно из правил не является более конкретным, Google по умолчанию будет использовать менее строгое правило.

В ситуациях, когда доступ к странице возможен по пути /do-not-enter, Google может сделать это, поскольку правило «разрешить» является более разрешающим по сравнению с правилом «запретить».

пользовательский агент: *

разрешить: /do-not-enter

запретить: /do-not-enter

Обратите внимание: если в полях allow или disallow не указан путь, правило будет игнорироваться.

пользовательский агент: *

запретить:

Вместо того, чтобы просто использовать косую черту («/») в качестве значения поля «disallow», это позволит ему соответствовать только основному домену и всем подстраницам вашего веб-сайта.

Чтобы ваш веб-сайт появлялся в результатах поисковых систем, избегайте включения этого конкретного кода, поскольку он не позволяет всем поисковым системам получать доступ и индексировать каждую страницу вашего сайта.

пользовательский агент: *

запретить: /

Это может показаться очевидным, но поверьте мне, я видел, как это происходило.

URL-пути

//www.example.com/guides/technical/robots-txt, путь будет /guides/technical/robots-txt. Эта часть URL-адреса помогает перемещаться по определенным разделам или ресурсам веб-сайта.

Чтобы обеспечить правильную работу файла robots.txt, всегда проверяйте, соответствуют ли символы верхнего и нижнего регистра конкретному URL-пути, который вы собираетесь использовать. Другими словами, убедитесь, что слова «Робот» и «робот» не имеют разных значений для желаемого URL-адреса.

Специальные символы

Поисковые платформы, такие как Google, Bing и другие, позволяют использовать определенные уникальные символы для сопоставления URL-адресов, хотя и с некоторыми ограничениями.

Как опытный веб-мастер, я хотел бы подчеркнуть, что специальные символы — это не обычные буквы или цифры; они выполняют уникальные функции или имеют определенное значение. В контексте файла robots.txt Google это специальные символы, о которых нам следует знать:

Звездочка (*) – соответствует 0 или более экземплярам любого символа.
Знак доллара ($) – обозначает конец URL-адреса.

Чтобы проиллюстрировать, как работают эти уникальные символы, рассмотрим простой веб-сайт со следующей структурой URL-адресов:

https://www.example.com/
https://www.example.com/search
https://www.example.com/guides
https://www.example.com/guides/technical
https://www.example.com/guides/technical/robots-txt
https://www.example.com/guides/technical/robots-txt.pdf
https://www.example.com/guides/technical/xml-sitemaps
https://www.example.com/guides/technical/xml-sitemaps.pdf
https://www.example.com/guides/content
https://www.example.com/guides/content/on-page-optimization
https://www.example.com/guides/content/on-page-optimization.pdf

Пример сценария 1. Блокировка результатов поиска по сайту

Одним из частых применений файла robots.txt является исключение результатов внутреннего поиска по сайту из сканирования роботами поисковых систем, поскольку такие страницы обычно не способствуют естественному или органическому рейтингу в поиске.

В этом сценарии, если пользователь выполняет поиск по адресу https://www.example.com/search, введенный им поисковый запрос добавляется непосредственно к URL-адресу.

. Это означает, что когда вы вводите этот URL-адрес в свой веб-браузер, вы должны сразу перейти к результатам поиска по запросу «XML Sitemap Guide» на веб-сайте-примере.

Как эксперт по SEO, я хотел бы уточнить: когда вы определяете URL-путь в файле robots.txt, он соответствует не только точному URL-адресу, но и всем URL-адресам, разделяющим этот конкретный путь. Другими словами, если вы хотите запретить доступ к определенным URL-адресам, вам не всегда нужно использовать для этой цели подстановочный знак.

Следующее правило будет соответствовать как https://www.example.com/search, так и https://www.example.com/search?search-query=xml-sitemap-guide.

пользовательский агент: *

запретить: /search

#Всем сканерам запрещено сканировать страницы с путем /search

Если бы был добавлен подстановочный знак (*), результаты были бы такими же.

пользовательский агент: *

запретить: /search*

#Всем сканерам запрещено сканировать страницы с путем /search

Пример сценария 2. Блокировка PDF-файлов

В некоторых случаях вы можете использовать файл robots.txt для блокировки определенных типов файлов.

Рассмотрим сценарий, в котором веб-сайт решает создать PDF-файлы для каждого руководства, чтобы пользователям было проще распечатывать его. В результате этого действия появляются два URL-адреса, содержащие одинаковое содержимое. Поскольку владелец веб-сайта не хочет, чтобы поисковые системы индексировали эти версии PDF, он может рассмотреть возможность запрета веб-сканерам доступа к ним.

В этом сценарии использование подстановочного знака (*) окажется полезным, поскольку он может эффективно сопоставлять URL-адреса, которые начинаются с «/guides/» и заканчиваются «.pdf», хотя символы или символы в середине могут отличаться.

пользовательский агент: *

запретить: /guides/*.pdf

Заблокируйте всем веб-сканерам доступ к веб-страницам, URL-адреса которых включают строку «/guides/», за которой следует ноль или более символов (включая полное отсутствие символов) и заканчивается «.pdf».

Приведенная выше директива не позволит поисковым системам сканировать следующие URL-адреса:

https://www.example.com/guides/technical/robots-txt.pdf
https://www.example.com/guides/technical/xml-sitemaps.pdf
https://www.example.com/guides/content/on-page-optimization.pdf

Пример сценария 3. Блокировка страниц категорий

В нашем последнем примере давайте представим, что на веб-сайте созданы страницы категорий как для технических, так и для содержательных руководств, чтобы пользователи могли легко и более эффективно перемещаться по контенту в будущем.

Тем не менее, поскольку в настоящее время доступно всего три опубликованных руководства, эти страницы не представляют существенной ценности ни для пользователей, ни для поисковых систем.

Администратор сайта может временно запретить поисковым системам сканировать только страницу категории, например эту: . Однако им по-прежнему хотелось бы, чтобы отдельные руководства в этой категории, например, , были доступны поисковым системам.

Для этого мы можем использовать «$» для обозначения конца пути URL.

пользовательский агент: *

запретить: /guides/technical$

запретить: /guides/content$

Заблокируйте всем веб-сканерам доступ к веб-страницам, URL-адреса которых заканчиваются на «/guides/technical» или «/guides/content».

Приведенный выше синтаксис предотвратит сканирование следующих URL-адресов:

https://www.example.com/guides/technical
https://www.example.com/guides/content

Разрешая поисковым системам сканировать:

https://www.example.com/guides/technical/robots-txt
https://www.example.com/guides/content/on-page-optimization

Карта сайта

Поле карты сайта используется для предоставления поисковым системам ссылки на одну или несколько карт сайта XML.

Как специалист по цифровому маркетингу, я считаю полезным (хотя и не обязательным) включать карты сайта XML в свой файл robots.txt. Эта практика помогает поисковым системам легко идентифицировать и расставлять приоритеты URL-адресов, которые они должны сканировать, что делает процесс индексации более рациональным.

Чтобы обеспечить правильную работу, значение поля sitemap должно быть записано как абсолютный веб-адрес (например, https://www.example.com/sitemap.xml), а не как относительный. (например, /sitemap.xml). Если у вас есть несколько карт сайта XML, не стесняйтесь включать несколько полей sitemap.

Пример файла robots.txt с одной XML-картой сайта:

пользовательский агент: *

запретить: /do-not-enter

карта сайта: https://www.example.com/sitemap.xml

Пример файла robots.txt с несколькими XML-картами сайта:

пользовательский агент: *

запретить: /do-not-enter

карта сайта: https://www.example.com/sitemap-1.xml

карта сайта: https://www.example.com/sitemap-2.xml

карта сайта: https://www.example.com/sitemap-3.xml

Задержка сканирования

Как упоминалось выше, 20% сайтов также включают поле crawl-delay в свой файл robots.txt.

Параметр «задержка сканирования» указывает ботам скорость, с которой они могут перемещаться по веб-сайту, обычно с целью снижения скорости сканирования и предотвращения перегрузки сервера.

Проще говоря, число, присвоенное параметру «crawl-delay», задает время в секундах, в течение которого роботы поисковых систем (или сканеры) должны делать паузу между запросами новой веб-страницы. Уточним: если это правило установлено, оно предписывает указанному сканеру ждать пять секунд после каждого запроса, прежде чем перейти к другому URL-адресу.

пользовательский агент: FastCrawlingBot

задержка сканирования: 5

Google заявил, что не поддерживает поле crawl-delay и оно будет проигнорировано.

Как опытный специалист по SEO, я могу подтвердить, что другие известные поисковые системы, такие как Bing и Yahoo, также соблюдают инструкции по «задержке сканирования», когда дело касается операций их веб-сканеров.

Поисковая система	Основной пользовательский агент для поиска	Учитывает задержку сканирования?
Google	Googlebot	Нет
Бинг	Бингбот	Да
Yahoo	хлебать	Да
Яндекс	ЯндексБот	Да
Байду	Байдупаук	Нет

Веб-сайты часто содержат инструкции, называемые директивами задержки сканирования, которые применимы ко всем типам пользователей (обозначаются подстановочным знаком *). Эти инструкции соблюдаются сканерами поисковых систем, а также упомянутыми ранее, а также специализированными инструментами SEO, такими как Ahrefbot и SemrushBot.

Число секунд, в течение которых сканерам было указано ждать перед запросом другого URL-адреса, варьировалось от одной секунды до 20 секунд, но значения crawl-delay в пять секунд и 10 секунд были наиболее распространенными на 60 проанализированных сайтах.

Тестирование файлов Robots.txt

Всякий раз, когда вы создаете или редактируете файл robots.txt, всегда дважды проверяйте инструкции, грамматику и общий макет, прежде чем публиковать его.

Инструмент проверки и тестирования robots.txt позволяет легко это сделать (спасибо, Макс Прин!).

Чтобы протестировать работающий файл robots.txt, просто:

Добавьте URL-адрес, который хотите протестировать.
Выберите свой пользовательский агент.
Выберите «Жить».
Нажмите «Проверить».

В приведенном ниже примере показано, что смартфону робота Googlebot разрешено сканировать тестируемый URL-адрес.

Если окажется, что предоставленный URL-адрес ограничен, инструмент определит конкретное правило, из-за которого указанный браузер не сможет получить к нему доступ.

Прежде чем публиковать новые правила, попробуйте переключиться в «Режим редактирования» и сначала ввести правила в текстовую область для тестового запуска.

Общее использование файла Robots.txt

Изучение 60 различных файлов robots.txt на разных веб-сайтах показало, что, хотя их конкретное содержимое может значительно различаться, существуют некоторые закономерности в том, как они используются, и в том, какие виды контента веб-мастера часто не позволяют поисковым системам индексировать.

Запретить поисковым системам сканировать малоценный контент

На многочисленных веб-сайтах, особенно обширных, таких как сайты электронной коммерции или сайты с богатым содержанием, часто непреднамеренно создаются «страницы с минимальной ценностью» из-за функций, реализованных для улучшения взаимодействия с пользователем.

Например, страницы внутреннего поиска и возможность фильтрации и сортировки (фасетная навигация) позволяют пользователям легко и быстро найти именно то, что им нужно.

Хотя эти характеристики имеют решающее значение для удобства пользователя, они потенциально могут привести к появлению множества или менее ценных URL-адресов, которые не имеют большой ценности с точки зрения поисковых систем.

Файл robots.txt обычно используется для блокировки сканирования этих малоценных страниц.

К распространенным типам контента, блокируемого через robots.txt, относятся:

Параметризованные URL-адреса. URL-адреса с параметрами отслеживания, идентификаторами сеансов или другими динамическими переменными блокируются, поскольку часто ведут к одному и тому же контенту, что может привести к проблемам с дублированием контента и трате бюджета сканирования. Блокировка этих URL-адресов гарантирует, что поисковые системы будут индексировать только основной, чистый URL-адрес.
Фильтры и сортировка. Блокировка URL-адресов фильтрации и сортировки (например, страниц товаров, отсортированных по цене или категории) помогает избежать индексации нескольких версий одной и той же страницы. Это снижает риск дублирования контента и позволяет поисковым системам сосредоточиться на самой важной версии страницы.
Результаты внутреннего поиска. Страницы результатов внутреннего поиска часто блокируются, поскольку они создают контент, не имеющий уникальной ценности. Если поисковый запрос пользователя вводится в URL-адрес, содержимое страницы и мета-элементы, сайты могут даже рискнуть просканировать и проиндексировать некоторый неуместный, созданный пользователем контент (см. образец снимка экрана Мэтта Татта в этой публикации). Их блокировка предотвращает появление этого некачественного и потенциально нежелательного контента в поиске.
Профили пользователей. Страницы профилей могут быть заблокированы для защиты конфиденциальности, уменьшения сканирования малоценных страниц или обеспечения сосредоточения внимания на более важном контенте, например страницах продуктов или сообщениях в блогах.
Среды тестирования, тестирования или среды разработки. Среды тестирования, разработки или тестирования часто блокируются, чтобы гарантировать, что частный контент не будет сканироваться поисковыми системами.
Подпапки кампании. Целевые страницы, созданные для платных медиа-кампаний, часто блокируются, если они не актуальны для более широкой поисковой аудитории (например, целевая страница прямой почтовой рассылки, предлагающая пользователям ввести код активации). .
Страницы оформления заказа и подтверждения. Страницы оформления заказа блокируются, чтобы пользователи не могли попасть на них напрямую через поисковые системы, что повышает удобство работы пользователей и защищает конфиденциальную информацию в процессе транзакции.
Созданный пользователями и спонсируемый контент. Спонсируемый контент или пользовательский контент, созданный с помощью обзоров, вопросов, комментариев и т. д., часто блокируется для сканирования поисковыми системами.
Медиа-файлы (изображения, видео). Медиа-файлы иногда блокируются от сканирования, чтобы сэкономить полосу пропускания и уменьшить видимость проприетарного контента в поисковых системах. Это гарантирует, что в результатах поиска будут отображаться только релевантные веб-страницы, а не отдельные файлы.
API: API часто блокируются, чтобы предотвратить их сканирование или индексирование, поскольку они предназначены для межмашинного взаимодействия, а не для результатов поиска конечных пользователей. Блокировка API защищает их использование и снижает ненужную нагрузку на сервер от ботов, пытающихся получить к ним доступ.

Блокировка «плохих» ботов

Нежелательные или вредоносные программные роботы, часто называемые плохими ботами, выполняют такие действия, как неизбирательный сбор данных (очистка контента) или поиск слабых мест с целью кражи конфиденциальной информации в серьезных ситуациях.

Боты, у которых нет вредоносных намерений, все равно могут быть помечены как «неблагоприятные», когда они бомбардируют веб-сайты чрезмерным количеством запросов, вызывая тем самым перегрузку сервера.

Более того, некоторые менеджеры веб-сайтов могут предпочесть держать определенных веб-сканеров подальше от своего сайта, поскольку они не видят никаких преимуществ от такого взаимодействия.

Например, если вы не предоставляете услуги Китаю или хотите избежать возможных сбоев в работе сервера из-за запросов Baidu, вы можете решить ограничить доступ со стороны Baidu.

Несмотря на то, что некоторые «нежелательные» боты могут игнорировать правила, изложенные в файле robots.txt, веб-сайты часто включают запреты, чтобы не допустить их попадания.

Согласно нашему анализу 60 файлов robot.txt, каждый из них содержал ограничение хотя бы для одного пользовательского агента, не позволяющее им получить доступ ко всему содержимому сайта с помощью команды «disallow: /».

Блокировка ИИ-сканеров

Среди проверенных веб-сайтов было обнаружено, что GPTBot был наиболее часто блокируемым сканером, поскольку примерно один из четырех сайтов (или 23%) не позволял GPTBot получить доступ к какому-либо своему контенту.

По состоянию на ноябрь 2024 года информационная панель Orginality.ai в режиме реального времени показывает, что примерно четверть (27%) из 1000 крупнейших веб-сайтов приняли меры, предотвращающие их сканирование GPTBot.

Возможные причины ограничения веб-скраперов ИИ варьируются от беспокойства по поводу управления данными и личной конфиденциальности до желания предотвратить использование своих данных в системах обучения ИИ без соответствующего вознаграждения.

Каждая ситуация требует индивидуальной оценки при определении необходимости блокировки ИИ-ботов с помощью файла robots.txt.

Если вы хотите предотвратить использование контента вашего веб-сайта для обучения ИИ, сохраняя при этом максимальную видимость, вы сорвали джекпот! OpenAI четко описывает использование таких моделей, как GPTBot и другие веб-сканеры, что дает вам контроль над доступом к вашим данным.

По крайней мере, сайты могут захотеть предоставить доступ OAI-SearchBot, инструменту, используемому для демонстрации и подключения веб-сайтов к функции поиска в реальном времени SearchGPT — последнему дополнению к услугам ChatGPT.

По сравнению с блокировкой GPTBot, блокирование OAI-SearchBot встречается гораздо реже, поскольку оно наблюдается только примерно на 2,9% из 1000 крупнейших веб-сайтов, которые были созданы для препятствования работе этого конкретного сканера поисковой системы, ориентированного на SearchGPT.

Творческий подход

Помимо того, что файл robots.txt служит ключевым инструментом в управлении доступом поисковых роботов к вашему сайту, он также может предоставить веб-сайтам возможность продемонстрировать свой инновационный и художественный талант.

Просматривая документы примерно из 60 различных источников, я наткнулся на несколько неожиданных сокровищ – например, причудливые рисунки, скрытые в разделах комментариев файлов robots.txt от Marriott и Cloudflare.

Многие компании даже превращают эти файлы в уникальные инструменты для подбора персонала.

Файл robots.txt на сайте TripAdvisor также служит объявлением о вакансии с умным сообщением, включенным в комментарии:

Если вы изучаете этот документ и вы не машина, похоже, мы заинтересованы в сотрудничестве с такими людьми, как вы, которые от природы любознательны…

Управляйте, а не сканируйте, чтобы подать заявку на вступление в элитную SEO-команду TripAdvisor[.]»

Если вы ищете новую вакансию, вам будет полезно изучить файлы robots.txt, а также LinkedIn.

Как проверить файл robots.txt

Аудит файла Robots.txt является важной частью большинства технических SEO-аудитов.

Выполнение всесторонней проверки файла robots.txt гарантирует, что он правильно настроен для повышения видимости сайта, при этом избегая непреднамеренной блокировки важных веб-страниц.

Чтобы проверить файл Robots.txt:

Просканируйте сайт с помощью предпочитаемого вами сканера. (Обычно я использую Screaming Frog, но с этой задачей справится любой веб-сканер.)
Фильтровать сканирование для всех страниц, помеченных как «заблокированные файлом robots.txt». В Screaming Frog вы можете найти эту информацию, перейдя на вкладку кодов ответов и отфильтровав ее по «заблокировано robots.txt».
Просмотрите список URL-адресов, заблокированных файлом robots.txt, чтобы определить, следует ли их заблокировать. Обратитесь к приведенному выше списку распространенных типов контента, заблокированного файлом robots.txt, чтобы определить, должны ли заблокированные URL-адреса быть доступны поисковым системам.
Откройте файл robots.txt и проведите дополнительные проверки, чтобы убедиться, что файл robots.txt соответствует рекомендациям SEO (и позволяет избежать распространенных ошибок), подробно описанных ниже.

TL;DR

Файл robots.txt указывает сканерам поисковых систем, к каким областям веб-сайта следует обращаться или избегать, оптимизируя эффективность сканирования за счет сосредоточения внимания на наиболее ценных страницах.
Ключевые поля включают «Агент пользователя» для указания целевого сканера, «Запретить» для областей с ограниченным доступом и «Карта сайта» для приоритетных страниц. Файл также может содержать такие директивы, как «Разрешить» и «Задержка сканирования».
Веб-сайты обычно используют robots.txt для блокировки результатов внутреннего поиска, малоценных страниц (например, фильтров, параметров сортировки) или конфиденциальных областей, таких как страницы оформления заказа и API.
Чтобы ваш сайт был успешным, убедитесь, что у каждого поддомена есть собственный файл robots.txt, проверьте директивы перед публикацией, включите декларацию карты сайта XML и избегайте случайной блокировки ключевого контента.

Смотрите также

2024-11-27 14:10

WP Engine против Automattic: судья склонен вынести предварительный судебный запрет

27.11.2024 от googleupdate

Как опытный эксперт по SEO с более чем двадцатилетним опытом работы в сложном ландшафте цифрового маркетинга и законодательства об интеллектуальной собственности, я не могу не испытывать чувства злорадства, наблюдая за продолжающейся сагой между WPE и Automattic. Это дело представляет собой захватывающее сочетание технологий, права и бизнес-стратегии, и всегда интересно наблюдать, как эти гиганты маневрируют в зале суда.

Судебное заседание WP Engine не принесло им полного успеха, поскольку судья Арасели Мартинес-Ольгин сочла их просьбу о предварительном судебном запрете слишком общей. Тем не менее судья выразил склонность вынести тот или иной судебный запрет.

«Вот как вы назначаете выкуп»

Адвокат, представляющий истца, поделился свежей информацией о событиях, которые произошли, когда Мэтт Малленвег предпринял решительные действия против WP Engine на WordCamp USA. Первоначально она уточнила, что запрос Мулленвега на лицензию на товарный знак на самом деле был ложным. Позже она продемонстрировала, как Мулленвег игнорировал свои права на товарный знак в течение пятнадцати лет.

Кроме того, были представлены свежие идеи относительно переговорного процесса. Выяснилось, что Малленвег запросил сумму в 32 миллиона долларов в кратком письме на одну страницу. Более того, договор заключен на семилетний срок, который, по сути, продлевается на неопределенный срок. Наконец, она подробно рассказала, как Малленвег пришел к цифре в 32 миллиона долларов, заявив, что это всего лишь цифра, которую, по его мнению, WP Engine может себе позволить.

В этом разделе дела истца они стремились продемонстрировать, что ставка роялти, которую требовал Мулленвег, не определялась какой-либо внутренней стоимостью марки. Вместо этого ставка больше походила на высокую сумму, которую, по мнению Малленвега, он мог получить от WP Engine. Они утверждали, что термин «вымогательство» использовался для описания предполагаемого метода установления ставки.

Очевидно, что ответчики не были уполномочены оказывать свои услуги, поскольку это была всего лишь маскировка или обман. Эта услуга была по сути бесполезной, как притворство. В течение 15 лет WP Engine использует знак WordPress так, как это делали другие члены сообщества в течение того же периода, без какого-либо предупреждения, например, по электронной почте, текстовому сообщению или письму о прекращении и воздержании от них. По сути, никаких попыток их остановить не было.

Начиная с 20 сентября мы совершенно неожиданно получили необычное одностраничное лицензионное соглашение на использование товарного знака. Это нетипичное поведение владельцев товарных знаков. Вместо этого они обычно принимают меры по защите и обеспечению соблюдения своих знаков более своевременным и разумным образом. Ждать 15 лет, а потом вдруг потребовать тридцать два миллиона долларов – это не стандартный подход.

Кроме того, мы понимаем, что цена, указанная в одностраничной лицензии, эквивалентна восьми процентам от общего дохода WP Engine, что соответствует впечатляющей сумме в тридцать два миллиона долларов. Эта цена фиксируется на семь лет, а затем продлевается на неопределенный срок.

Отвечая на вопрос о методе ценообразования, г-н Мулленвег, ответчик Мэтью Малленвег, признался: «Я определил его, исходя из того, что, по моему мнению, они могли себе позволить. Мы провели оценку, чтобы определить свободный денежный поток. Вот как мы пришли к этому выводу. по этой цифре». Однако роялти рассчитываются не так. Это больше похоже на установку суммы выкупа.

Судья допросил адвокатов WP Engine

На определенном этапе слушания судья Арасели Мартинес-Олгин поинтересовалась у юристов, представляющих WP Engine, обоснованием продолжения доступа без уплаты какой-либо лицензионной платы.

Как опытный SEO-эксперт, я хотел бы разъяснить свою позицию, Ваша Честь. Рассматриваемый вопрос, похоже, не устанавливает никакой связи между участвующими сторонами. Вместо того, чтобы спрашивать, имеет ли WP Engine право на освобождение от лицензии на товарный знак, было бы точнее сформулировать его так: «Есть ли основание требовать от WP Engine получения лицензии на товарный знак?» Эта пересмотренная формулировка призвана обеспечить более четкое понимание рассматриваемого юридического вопроса.

Юрист также отметил, что бесплатное использование WordPress.org было нормальной ситуацией на протяжении пятнадцати лет. Однако ситуация изменилась 20 сентября, когда у Мулленвега начались разногласия с WP Engine.

Тактика защиты Automattic

В свою защиту Automattic и адвокат Мулленвега представили несколько технических аргументов, призванных убедить судью не выносить судебный запрет. Одним из решающих аргументов было то, что иск WP Engine о вымогательстве, согласно законам Калифорнии, недействителен, поскольку суды Калифорнии не разрешают частные иски за попытку вымогательства, как это определено в Уголовном кодексе Калифорнии.

Вместо того, чтобы полагаться на них, они упомянули, что судебное дело, которое использует адвокат WP Engine (Тран против Винна), на самом деле касается отдельной юридической проблемы — принуждения и расторжения договора, а не вымогательства. Они пояснили, что доводы истца не соответствуют делам о вымогательстве, а включают в себя отдельные правовые идеи.

Юрист Automattic в ответ указывает, что даже если бы WP Engine смогла применить дело Тран против Винна, аргумент истца все равно был бы недействителен в соответствии с другими правовыми прецедентами, которые они используют в качестве основания для своих претензий (дело Левитта). Они утверждают, что истец не выполняет требования закона об экономическом вымогательстве, поскольку не может доказать, что ответчик не имел права требовать оплату за спорные услуги.

Юрист Automattic утверждает, что истцы упустили из виду второй вариант лицензионного соглашения, который разрешал волонтерские часы вместо оплаты. Шоу также подчеркнул, что Малленвег упомянул об обсуждении условий позднее на этой неделе, но WP Engine не ответил на его сообщение относительно переговоров.

…»В сообщении господина Мулленвега он упоминает или намекает на обсуждение условий на предстоящей неделе. Однако на его ответ так и не отреагировали.

Что сказал судья

В деле судьи Арасели Мартинес-Ольгина пришлось разобраться с несколькими сложностями. Однако одной из наиболее серьезных проблем, по-видимому, было то, что запрет WP Engine не был достаточно конкретным.

Как специалист по цифровому маркетингу, я оказался в ситуации, когда судья намекнула на ее возможное решение, но при этом ясно дала понять, что мое предложение по какой-то причине неосуществимо или практично.

После тщательного изучения всех аспектов я склоняюсь к тому, чтобы отдать какой-то приказ. Однако с предложенным вами заказом возникла проблема; он слишком широк и неконкретен, что затрудняет его эффективную реализацию.

После этого судья предложил обеим сторонам сотрудничать, чтобы сделать предварительный запрет более конкретным и менее двусмысленным. Если они не могли прийти к согласию по этому вопросу, они могли вместо этого представить противоположные аргументы. Была некоторая дискуссия относительно даты суда: WP Engine сначала предпочитал дату пятницы, но в конечном итоге согласился явиться в суд во вторник, 3 декабря.

Реакция на предварительное слушание по поводу судебного запрета

Как эксперт по SEO, я с уверенностью признал, что моя работа с WPE была исключительной, когда меня спросили: «Можете ли вы поделиться своим лучшим опытом?» Обычно этот вопрос не задают, когда кто-то считает, что нет достойной работы, которую можно было бы продемонстрировать.

Как опытный специалист по поисковой оптимизации, я твердо верил, что самым действенным способом действий является вредоносное вмешательство. Учитывая юридический опыт WordPress, я уверен, что они также сочли его жизнеспособным вариантом.

Казалось вероятным, что главный исследователь (PI) получит грант, и это было почти так же для Automattic, но презентация технологии Мака могла склонить чашу весов в их пользу.

Он высказал хорошее мнение о судье, заявив, что она, похоже, осознает, что некоторые технические вопросы выходят за рамки ее компетенции, и что она выразила готовность задавать вопросы, чтобы лучше понять.

Судья, судя по всему, имеет более практическое, а не академическое образование, однако она демонстрирует острую осведомленность и умение внимательно слушать — качество, редко встречающееся среди федеральных судей. Это похвально.

Будет интересно посмотреть, что мы получим в понедельник.

Почти наверняка, дуэльные предложения».

Отчет о сегодняшних судебных событиях основан на обновлениях в реальном времени в блоге и публикации адвоката, присутствовавшего на виртуальном слушании через Zoom.

Смотрите также

2024-11-27 10:09

Новые функции Google Analytics помогают исправить скрытые списки товаров

27.11.2024 от googleupdate

Как опытный веб-мастер с более чем двадцатилетним стажем работы, я должен сказать, что эти последние обновления от Google подобны манне небесной для нас, цифровых торговцев. Оповещения о видимости продуктов, добавленные на панель аналитики, меняют правила игры, помогая нам поддерживать видимость и конкурентоспособность наших продуктов в постоянно переполненном пространстве электронной коммерции.

Google представил две новые функции. Один предназначен для повышения видимости продуктов, а другой ориентирован на оценку различных каналов сбыта.

Эти функции могут помочь вам найти и устранить проблемы с данными о продуктах, а также обеспечить лучший анализ трафика.

Оповещения о видимости продукта добавлены на панель аналитики

Проще говоря, Google Analytics теперь показывает предложения из Google Merchant Center прямо в своем пользовательском интерфейсе, чтобы помочь продавцам повысить узнаваемость своих продуктов.

Обновленная функция уведомляет вас о возможных проблемах с вашими продуктами, которые могут помешать их широкому показу в Google Shopping.

Интеграция позволяет:

Отслеживайте уведомления об отклонении продуктов в нескольких разделах Analytics, включая домашнюю страницу, центр статистики, снимки отчетов и обзорный отчет об источниках трафика.
Получите доступ к прямым ссылкам для устранения проблем в Merchant Center.
Устраните проблемы с конфигурацией, которые могут повлиять на видимость продукта в результатах Google Покупок.

Теперь система специально отмечает случаи, когда товары не отображаются в поиске Google из-за проблем с конфигурацией, например отсутствия значений глобального номера торговой единицы (GTIN).

Я хотел сообщить вам, что если ваши товары были отклонены Google Merchant Center, это означает, что эти товары могут быть не видны потенциальным покупателям в Google.

Обновленные рекомендации Merchant Center упрощают процесс быстрого обнаружения и решения проблем с данными о товарах в Google Analytics.

Вот как это поможет вам победить…

— Google Analytics (@googleanalytics), 26 ноября 2024 г.

Улучшение пользовательских групп каналов

Кроме того, Google расширил возможности настройки групп каналов в своей системе, теперь позволяя вручную настраивать параметры рекламного контента.

Как опытный веб-мастер, я в восторге от этого обновления, которое дает мне и моим коллегам-маркетологам большую свободу в анализе каналов. Раньше мы ограничивались использованием только автоматически помеченных параметров. Однако теперь эти ограничения сняты, что дает нам возможность исследовать более широкий спектр источников данных, тем самым расширяя наши аналитические возможности и более эффективно принимая обоснованные решения.

Как это помогает

Эти обновления актуальны для интернет-магазинов, поскольку они готовятся к пиковому сезону покупок.

Вы сможете использовать эти функции прямо из панели управления Google Analytics без каких-либо задержек, поскольку они доступны для немедленного использования.

Смотрите также

2024-11-27 05:08

Персонализированные идеи и понимание аудитории

Доступность

Смотрите также

Снимок экрана с рейтингом серьезности уязвимости CleanTalk

Уязвимость плагина WordPress для защиты от спама CleanTalk

Рекомендация

Смотрите также

Что такое файл robots.txt?

Что содержится в файле robots.txt?

Синтаксис файла Robots.txt

Пользовательский агент

Запретить и разрешить

URL-пути

Специальные символы

Пример сценария 1. Блокировка результатов поиска по сайту

Пример сценария 2. Блокировка PDF-файлов

Пример сценария 3. Блокировка страниц категорий

Карта сайта

Задержка сканирования

Тестирование файлов Robots.txt

Общее использование файла Robots.txt

Запретить поисковым системам сканировать малоценный контент

Блокировка «плохих» ботов

Блокировка ИИ-сканеров

Творческий подход

Как проверить файл robots.txt

Рекомендации по использованию файла robots.txt (и подводные камни, которых следует избегать)

TL;DR

Смотрите также

«Вот как вы назначаете выкуп»

Судья допросил адвокатов WP Engine

Тактика защиты Automattic

Что сказал судья

Реакция на предварительное слушание по поводу судебного запрета

Смотрите также

Оповещения о видимости продукта добавлены на панель аналитики

Улучшение пользовательских групп каналов

Как это помогает

Смотрите также