Руйнуємо головні міфи про новий алгоритм Google BERT

Новий алгоритм Google BERT привернув інтерес і змусив багатьох пошукових оптимізаторів змінити підхід у створенні контенту для сторінок. Імплементація нового алгоритму в пошукову систему вважається оновленням року.

міфи про новий алгоритм Google BERT

На ринку поширюються різні SEO міфи про BERT.Напрімер:

  • BERT застосовується тільки для аналізу пошукових запитів, і не застосовується для аналізу контенту на сторінці;
  • Алгоритм практично ніяк не впливає результати пошукової видачі.

А ще Yandex почав використовувати алгоритм BERT. Навіщо? Для яких цілей?

Отже, є такі питання:

  • Чи застосовується BERT для аналізу текстів на сайтах?
  • Чому в пошуковій видачі Google не були помічені значущі флуктуації? Чи є пояснення?
  • BERT в Yandex.

Розберемося з усіма питаннями далі.

Міф 1: Чи використовується BERT для аналізу тексту на сайтах?

Багато пошукових оптимізаторів досі вважають, що Google BERT застосовується лише для аналізу ІНТЕНТ пошукових запитів. Як приклад, коментар під статтею:

Google BERT для аналізу тексту на сайті

Ряд колег підтримали даний коментар. Деякі зовсім писали, що все це маячня. 🙂 Дякую за критику.

Так, дійсно в анонсі чорним по білому написано, що алгоритм застосовується для аналізу пошукових запитів. Наводяться приклади. І не написано, що BERT застосовується ще й для аналізу контенту на сайтах.

Ще є таке розхожа думка, що BERT створений для поліпшення пошукової видачі по голосовому пошуку.

Але відсутність інформації є недостатнім, щоб робити твердження про те, що BERT не застосовується до контенту.

Мені логіка осіб приймають рішення в Google зрозуміла. Проте, аргументи наводити не буду. Є простіший спосіб зруйнувати даний міф. Кілька років тому проводився світовий конкурс по SEO, за результатами якого я зайняв друге місце. Обов’язковою умовою було дотримання правил Google, інакше учасник виключався. В результаті у мене залишилися контакти в Google. Я уточнив інформацію по даній темі безпосередньо.

Yes, for both understanding queries, and for understanding the content.

Зафіксуємо: Google використовує новий алгоритм для аналізу контенту на сторінках.

Google BERT для оцінки контенту на сторінці

Далі розберемося з флуктуаціями в пошуковій видачі.

Міф 2: Алгоритм практично ніяк не впливає на результати пошукової видачі

Раніше все текстові алгоритми були націлені на аналіз ключових фраз. Головна мета нового алгоритму полягає в вирішенні задачі по розумінню контексту.

Моделі BERT можуть аналізувати не тільки окремі слова, а й розуміти контекст, в якому слова вживаються.

В результаті технологія здатна значимо поліпшити результати пошукової видачі. У пошуковій системі так характеризують новий алгоритм:

Найбільший прорив і один з найбільш грандіозних успіхів за всю історію Google Пошуку.

Багато сайтів, які були створені під низькочастотні ключові фрази повинні були втратити позиції пошукової видачі. Чому не були помічені значущі флуктуації? Є причини.

Причина 1. Витрати на ресурси. Моделі Google настільки складні, що для обробки необхідних даних довелося вперше застосовувати тензорні процесори (TPU), створені спеціально для машинного навчання нейронних мереж. BERT заточена під тензорні процесори Google, тому з коробки вміє працювати тільки з однією відеокартою.

Причина 2. Поганий претренінг російською та іншими мовами. На GitHub доступний вихідний код на TensorFlow і навіть предобученная універсальна модель BERT на 102 мови. Фахівці Yandex випробували дану модель. Виявилося, що універсальна модель на російських текстах показувала істотно менше якість, ніж англійська модель, що б’є рекорди на англійських текстах (що, погодьтеся, логічно). На російських текстах вона програвала внутрішнім моделям Yandex на DSSM. За даними Yandex на перенавчання потрібен був би рік.

Отже, BERT практично не впливає на результати пошукової видачі російською, українських та інших мовах зважаючи на технічні та економічних причин. У перспективі ситуація зміниться, а значить пошуковому оптимізатору слід бути підготовленим. У західному сегменті ситуація інша.

Для яких цілей BERT почав застосовуватися в Yandex?

BERT в Yandex. Навіщо Yandex почав використовувати BERT?

Так. Yandex почав використовувати BERT. Чи не для ранжирування. Алгоритм використовується для вирішення таких завдань:

  • Пошуку помилок в новинах, а саме для пошуку помилок в заголовках новин.
  • Пошук застарілих заголовків.

Навіщо шукати помилки в заголовках? Щоб виключити новини з помилками в заголовках з топа.

Пошуковий алгоритм BERT в Yandex

Коментарі експертів на тему алгоритму BERT

Джейкоб Узкорейт, керівник берлінської команди Google AI Brain:

Порівняно від інших минулих претренінг мовних моделей, створених за допомогою обробки нейросетями терабайтов тексту, що читається зліва направо, модель BERT читає і справа наліво, і одночасно зліва направо, і навчається пророкувати, які слова випадковим чином були виключені з пропозицій. Наприклад, BERT може прийняти на вхід пропозицію виду «Джордж буш […] в Коннектикуті в 1946 році», і передбачити, яке саме слово приховано в середині речення (в даному випадку, «народився»), обробивши текст в обох напрямках. «Ця двунаправленность змушує нейросеть витягти якомога більше інформації з будь-якої підмножини слів.

Джон Мюллер, аналітик тенденцій веб-майстрів з Google:

Я б в першу чергу рекомендував поглянути на допис у блозі, який ми зробили навколо цієї конкретної зміни. Зокрема, ми намагаємось зробити ці зміни, щоб краще зрозуміти текст. А з іншого боку краще розуміння тексту на сторінці. Запити насправді не те, на що ти можеш вплинути як SEO. Текст на сторінці — це те, на що можна вплинути. Наша рекомендація, по суті, писати природно. На які особливі атрибути нам потрібно стежити, і що дозволило б використовувати, щоб краще відповідати запиту, який хтось задає нам, до вашої конкретної сторінки. Тож, якщо що-небудь, ви можете зробити щось, щоб оптимізувати для BERT, це по суті, щоб переконатися, що ваші сторінки мають натуральний текст на них, і що вони не написані таким чином. Начебто нормальна людина змогла б зрозуміти. Тож замість набивання ключових слів якомога більше, напишіть природно.

Що буде зменяться в перспективі?

Google BERT і низькочастотні запити

Ранше, якщо по висококочастотним ключовим фразовим конкуренція була висока, і для того, щоб просувати необхідні вимоги, були більші інвестиції, це було альтернативним дешевим вмінням розкручувати сторінки за низькочастотними ключовими фразами. Подібні ключові слова просувалися в ТОП за рахунок таких факторів:

  • Технічна оптимізація продвигаемых сторінок сайту;
  • Поїскова оптимізація тексту на сторінці.

На таких сайтах суммарний об’ємний трафік за низькочастотним ключовим фразом більше за об’ємною трафікою за всіма і німецькими ключовими фразами. BERT аналізує не лише текст пошукових запитів, а й текст на сторінках сайту. Знати даний здатність більше ефективного не буде. Тим не менше, ми можемо працювати і зараз, так як універсальна модель BERT не пропонувала хорошого перегляду тексту на руській мові. Новий тренд вказує, що ситуація буде змінитися в перспективі.

За допомогою вдосконалення покращення подібних пошукових алгоритмів, трафік із поисковой выдачі буде перезаписувати від мелких сайтів, зафіксованих за низькочастотними ключовими словами, до великих авторитетних сайтів.

Що робити на сайті зараз?

Якщо у вас є веб-сайти під притяганням трафіку за низькочастотним запитом, то слід створити ще й альтернативні сайти з урахуванням об’єктів сторінок.

Пошукова оптимізація сайту під низькочастотні пошукові запити

На головних сайтах слід адаптувати формат текстів під текст для людей і розширити семантичні ядра сторінок. Як? Наприклад так:

  • Розширити сторінки текстом, з входженням додаткових релевантних ключових фраз з пошукової видимості;
  • Аналізувати пошукові запити, за якими був притягнутий трафік на сайт і додавати релевантні фрази в контент;
  • Додавати в контент релевантні фрази з пошукових підказок Google, Bing і Yandex. В даному джерелі з’являються низькочастотні фрази, яких немає в інших системах;
  • Аналізувати логи внутрішнього пошуку і додавати в контент знайдені релевантні ключові фрази.

Як вивантажувати ключові фрази сайтів з пошукової видимості? Найпростіший спосіб полягає в вивантаженні даних з бази MegaIndex.

Робот регулярно сканує пошукову видачу, збирає та оновлює список ключових фраз, за ​​якими ранжуються сайти.

Посилання на сервіс — Пошук ключових фраз на основі даних про пошукової видимості.

Приклад звіту далі:

Наочний приклад по використанню сервісу:

Висновки

У BERT така архітектура нейромережі, яка дозволяє враховувати весь контекст відразу, включаючи інший кінець пропозиції і причетний оборот десь в середині. І в цьому її відмінність від попередніх модних архітектур, які враховували контекст. Наприклад, у нейромережі LSTM довжина контексту — в кращому випадку десятки слів, а тут все 200.

Інтеграція технології BERT з пошуковою системою Google проведена. BERT застосовується до аналізу пошукових запитів, і до аналізу контенту на сторінках сайту. Якість поліпшень пошукової видачі залежить від мови. Слід оптимізувати тексти на сторінках сайтах. Як? Використовувати природна мова в текстах. Розширювати семантичні ядра сторінок сайту за рахунок додавання релевантних ключових фраз і фрагментів тексту. Ще має сенс починати роботу з альтернативними джерелами трафіку, такими наприклад як YouTube.

Аналіз контенту сайту через алгоритм Google BERT

Yandex застосовує BERT для пошуку проблемних заголовків. Слід враховувати дане нововведення при роботі з новинним трафіком в рунеті.

Рекомендовані матеріали на тему алгоритму по посиланнях далі:

Google BERT — новий пошуковий алгоритм. Як зміниться ранжування і що робити зараз?

SEO під низькочастотні (НЧ) запити більше не працюватиме? Google застосував алгоритм BERT на всі запити

Корисна стаття? Не пропустіть нові!

1 Comment

  1. Велике спасибі розробнику цієї статті. Тепер я дізнався багато нового про алгоритм Google BERT. Дуже важко буває знайти статтю в якій інформація зображується дуже стисло і якісно, усім рекомендую прочитати, щоб мати досвід у цій справі.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *