Google утверждает, что контент, сгенерированный искусственным интеллектом, должен быть проверен человеком

По словам Гэри Ильеша из Google, контент, сгенерированный искусственным интеллектом, приемлем, если он соответствует высоким стандартам качества. Вместо того чтобы называть контент, созданный ИИ,

Купил акции на все деньги, а они упали? А Илон Маск снова написал твит? Знакомо. У нас тут клуб тех, кто пытается понять этот цирк и не сойти с ума.

Купить на падении (нет)

Вопросы задал Кеничи Сузуки в рамках эксклюзивного интервью с Ильёсом.

Обзоры ИИ и модели режимов ИИ

Кеничи поинтересовался конкретными моделями ИИ, используемыми в AI Overviews и AI Mode, и было уточнено, что это специально разработанные модели Gemini.

Как вы отметили, модель, которую мы используем для AIO (Обзоры на основе искусственного интеллекта) и режима искусственного интеллекта, является уникальной моделью Gemini, что может указывать на то, что она была обучена отдельно от других моделей. Я не знаю конкретных деталей обучения, но это, безусловно, специально разработанная модель.

Кеничи спросил, используют ли AI Overviews (AIO) и AI Mode отдельные индексы для обоснования.

Заземление относится к процессу, посредством которого языковая модель (LLM) связывает свои ответы с базой данных или поисковым индексом, чтобы гарантировать, что предоставляемые ответы являются надежными, точными и подкреплены проверяемыми фактами. Это помогает минимизировать неточности или ложную информацию. В контексте ИИ и интерактивного режима заземление часто происходит с использованием веб-данных из индекса Google.

Итак, это означает, что AI Overviews и AI Mode используют отдельные индексы для обоснования?

Насколько я понимаю, все функции Gemini — AI Overview, AI Mode — полагаются на Google Поиск для получения ссылок. По сути, эти функции отправляют различные запросы в Google Поиск, а Google Поиск затем предоставляет соответствующие результаты для этих конкретных вопросов.

Кеничи попросил уточнить информацию о Google Extended Crawler, и Джон Ильи подтвердил, объяснив сценарии, в которых используется Google Extended Crawler.

Иными словами, верно ли утверждать, что обучающие данные, используемые как AIO, так и AI Mode, происходят из стандартного сбора данных Google, а не из Google Extended?

Важно отметить, что когда происходит явление, называемое «grounding», искусственный интеллект не участвует. Вместо этого на это влияет расширенная политика Google. Кроме того, если вы решите не использовать расширенную политику Google, то Gemini не будет ограничивать ваш сайт. Когда происходит «grounding», это не контролируется искусственным интеллектом, а скорее общими правилами Google. Если вы решите не соблюдать эти правила Google, Gemini также не перестанет работать на вашем сайте.

Контент, созданный искусственным интеллектом, в больших языковых моделях и поисковом индексе

Последующий вопрос, который адресовал Иллиес, касался того, загрязняет ли контент, сгенерированный искусственным интеллектом, Обучающие и Языковые Модели (LLM). Иллиес уточнил, что это не проблема индексации в поисковой системе, но потенциально может представлять проблемы для LLM.

С увеличением производства контента искусственным интеллектом и языковыми моделями, обучающимися на этом контенте, мне хотелось бы узнать ваше мнение об этой растущей тенденции. Не могли бы вы также поделиться возможными недостатками или опасениями, связанными с этим?

Ильес ответил:
Важно найти решение для исключения контента, сгенерированного искусственным интеллектом, во время обучения модели, чтобы избежать попадания в замкнутый круг, что не принесет пользы для обучения. На данный момент я не уверен, является ли это серьезной проблемой или, возможно, из-за того, как мы выбираем документы для обучения.

Качество контента и контент, сгенерированный искусственным интеллектом

Итак, вам не важно, как создается контент… пока он высокого качества?

Проще говоря, Ильес подчеркнул, что качество контента играет важную роль в обучении ББМ (Большой языковой модели). Он особенно выделил важность обеспечения фактической точности контента. Кроме того, он отметил, что наличие чрезвычайно похожего контента в поисковом индексе может быть проблематичным и в идеале должно быть избежано.

Безусловно, пока информация остаётся первоклассной с точки зрения качества и точности, конкретный формат или подход не так важны.
Проблемы возникают, если контент тесно напоминает то, что уже было создано, в идеале, то, чего мы не найдём в нашей базе данных для обучения.
Как эксперт по SEO, я бы перефразировал это так: Когда я работаю с несовершенными данными для обучения моделей, это может быть довольно рискованно, поскольку это может привести к внесению предвзятости. Кроме того, такие предвзятые данные могут привести к интеграции контрфактической информации в мои модели.
Таким образом, чтобы обеспечить первоклассное качество контента, над которым мы работаем, необходимо, чтобы человек проверял результат. Этот процесс обычно необходим при обучении наших моделей в наши дни.

Контент, сгенерированный ИИ, проверенный человеком

Ильес далее уточнил, подчеркнув контент, сгенерированный ИИ, который проходит проверку человеком. Он подчеркнул, что этот процесс проверки не предназначен для сигнализирования внутри контента, а скорее является важным шагом, который издатели должны предпринять перед публикацией контента.

Для уточнения, «просмотренный человеком» не подразумевает просто вставку текста на веб-страницу, утверждающего, что контент был проверен людьми. Это не является надежным показателем достоверности и не было предложенным подходом.

Похоже, мы не планируем менять наши рекомендации по этой теме в ближайшее время, поэтому нет необходимости в пересмотре на данный момент. Для уточнения, вместо того чтобы говорить «созданный человеком», было бы точнее сказать «отобранный человеком». Это подразумевает, что хотя контент изначально был создан людьми, он прошел процесс, в ходе которого кто-то проверил его на точность и уместность.

Выводы

Политика Google, как объяснил Гари Ильес, по сути, гласит, что контент, сгенерированный искусственным интеллектом, может использоваться как для поисковых целей, так и для обучения моделей, при условии, что он правдив, уникален и был проверен людьми. Это подразумевает, что издатели должны осуществлять редакционный контроль для проверки фактической точности контента и обеспечения того, чтобы он не слишком сильно напоминал ранее опубликованный контент.

Посмотрите интервью:

https://www.youtube.com/watch?v=pstFF6TcqXk

Смотрите также

2025-08-12 12:20