Многие не знают, что PDF-файлы сканируются, индексируются и ранжируются в поисковой выдаче (SERP). Оптимизация PDF-файлов для SEO имеет специфику, о которой и поговорим в этой статье.
Долгое время файлы PDF воспринимались исключительно как файлы-архивы, для открытия которых необходимо было их загружать на компьютер и читать в сторонней программе (Adobe Reader). Сейчас встроенные в браузер плагины для чтения формата PDF, позволяющие просматривать файлы сразу же в браузере онлайн.
Если вы создаёте новый контент для интернета, лучше использовать веб страницы, а не PDF. Это однозначно! Всегда есть возможность переконвертировать эти файлы в формат HTML, используя различные бесплатные и платные PDF конвертеры.
Тем не менее, я прекрасно понимаю что случаются ситуации, когда приходится использовать PDF для контента. Например, многочисленные технические инструкции.
Файл PDF - это такая же страница сайта, как и файл в формате HTML. Как правило, на этот файл ссылаются так, что он является тупиковым для поисковой системы, т. к. в нём почти никогда не содержатся ссылки на другие страницы сайта, и зря. Каждый PDF-файл (как и страница HTML) находится в индексе поисковых систем, следовательно, имеет и свой поисковый вес, передаваемый по ссылкам (вИЦ или PR, если хотите). Я настоятельно рекомендую вам в любом файле PDF, выложенным на сайте, делать ссылки на обычные HTML-страницы сайта и на другие страницы PDF (можно даже продублировать навигацию основного сайта). В данном случае вы будете только в выигрышном положении, т. к. помимо передачи поискового веса по ссылке, посетитель, скачав файл PDF с вашего сайта и ознакомившись с информацией в нём, может к вам вернуться, щёлкнув по ссылке, ведущей на ваш сайт из скачанного документа. К тому же файл PDF редко редактируется, поэтому часто сохраняется в первоначальном виде, а также как файловый архив может стремительно распространяться через различные файловые хостинги, а это, опять же, новые пользователи для вашего сайта (тот редкий случай, когда поисковая оптимизация напрямую влияет на непоисковое продвижение).
Очень важно - если контент PDF файла дублируется с контентом страницы сайта, то закройте его от индекесации вообще!
Если вам вообще не нужно, чтобы PDF файлы индексировались, то рекомендую закрыть их разом в файле robots.txt:
Disallow: /*.pdf
Если пересекаются по контенту, то закрыть ссылку в тексте страницы сайта:
rel="nofollow"
Для яндекс можно еще дополнительно и no index использовать:
Ссылка индексируется полностью -
<a href="http://example.ru">Анкор (видимая часть ссылки)</a>
Индексируется только анкор (видимая часть) ссылки -
<a href="http://example.ru" rel="nofollow">Анкор</a>
Индексируется только ссылка, без своего анкора -
<a href="http://example.ru"><!--noindex-->Анкор<!--/noindex--></a>
Ссылка абсолютно НЕ индексируется -
<a href="http://example.ru" rel="nofollow"><!--noindex-->Анкор<!--/noindex--></a>
И можно дальше не читать
PDF плохо работают для SEO
Несмотря на то что Google и Yandex индексируют и периодически ранжирует PDF файлы, у формата есть несколько недостатков по сравнению с веб страницами:
- Не адаптивные. PDF файлы создаются так, чтобы они выглядели одинаково на всех устройствах. А значит не существует адаптивных PDF файлов.
- Отсутствует навигация. У большинства PDF файлов нет элементов навигации, которые помогают людям находить другой контент.
- Нет некоторых SEO атрибутов. У PDF файлов есть эквиваленты для многих SEO элементов. Но многих элементов нет. Например, в PDF файлах нет атрибутов ссылок nofollow, UGC и sponsored.
- Их редко переобходит бот. Из-за того что PDF файлы редко меняются, бот их посещает гораздо реже чем страницы, которые меняются чаще.
- Сложнее отслеживать. Самые распространённые инструменты аналитики используют JavaScript для страниц и не работают в файлах PDF.
Требования поисковых систем к PDF файлам
PDF файлы отображаются в результатах поиска Google и Яндекс с отметкой PDF.
PDF файлы конвертируются в HTML и так индексируются. Для PDF файлов, в которых текст отображается картинками Google использует технологию оптического распознавания символов (OCR) и конвертирует изображения текста в текст. Картинки в PDF файлах тоже индексируются в результатах поиска по изображениям.
Google предпочитает страницы PDF файлам в случае дублирования. Если у вас есть страницы и PDF файлы с одним и тем же контентом, Google чаще выбирает веб версию контента в качестве основной в дублированном кластере. Это значит что сигналы будут подклеиваться к веб версии и она будет отображаться в результатах поиска. Яндекс видимо аналогично, хотя точных данных нет.
Остерегайтесь дублирования контента! Важно, чтобы у вас не было одинакового контента и на веб-странице, и в документе PDF. Для SEO-продвижения в Google это важно: Google не любит дублированный контент и может наказать за это ваш сайт. Как этого избежать: создайте краткое изложение содержимого PDF на вашем веб-сайте, а копируйте его.
Существуют некоторые ограничения на типы индексируемых данных для Яндекс:
- Документы больше 10 МБ не индексируются.
- Если PDF-документ содержит только изображения, то индексируются первые три страницы. PDF-документ, содержащий также текст, индексируется полностью.
Оптимизации файла PDF для поисковых систем
Название файла
Для наилучшей оптимизации PDF-файла название документа должно соответствовать теме, раскрываемой в PDF-документе. Это один из первых элементов, который будут сканировать Google spiders, поэтому релевантное название документа позволит им понять суть его содержимого.
Также рекомендуется использовать дефисы для разделения слов в имени файла, чтобы избежать символов «%20» между словами в адресе, когда пользователи загружают PDF.
Название файла PDF будет частью URL. Это повлияет на URL, который будет отображаться в результатах поиска. Также это небольшой фактор ранжирования.
- Нажмите Файл > Сохранить как (File > Save As)
- Отредактируйте Название файла.
Заголовок
У веб страниц есть теги title и у PDF файлов есть заголовки. Многие поисковые системы используют заголовок для описания документа в результатах поиска. Если у PDF файла нет заголовка, в результатах поиска появится название файла.
Вот как отредактировать заголовок файла PDF в Adobe Acrobat Pro:
- Нажмите Файл > Свойства (File > Properties)
- Отредактируйте заголовок в поле Title
Заголовок PDF эквивалентен тегу заголовка HTML, поэтому он будет отображаться в выдаче. Чтобы заголовок не был обрезан, в названии должно быть не более 60 символов. Самые важные ключевые слова должны быть в начале заголовка. Отредактировать заголовок можно в «Настройках документа» в Adobe Acrobat.
Поскольку PDF-файлы обычно затрагивают только часть вопроса (темы, проблемы), они имеют тенденцию ранжироваться по long-tail запросам (низкочастотным и низкоконкурентным). Поэтому поисковая оптимизация по ним лучше подходит для PDF-файлов.
Настройте ссылки
Речь идёт о двух типах ссылок: во-первых, ссылки с вашего сайта на PDF будут сообщать Google, что документ – это релевантный фрагмент контента, который нужно сканировать. Здесь применяется правило соответствующего якорного текста.
Во-вторых, ссылки из самого PDF (логотипы или копии), ведущие на страницы вашего сайта. Преимущество заключается в двух аспектах: так вы не только покажете Google, что PDF соответствует контенту на вашем веб-сайте, но и любые обратные ссылки в PDF затем приведут на страницы вашего сайта через deep links (глубинные, или внешние ссылки). Если для пользователя ваш PDF будет полезен и он захочет разместить его на своем веб-сайте, читатели будут по-прежнему перенаправляться на ваш сайт для получения более подробной информации.
Не забывайте защищать документ, чтобы никто не мог изменить ваши ссылки и заменить их своими.
Оптимизируйте <description>
Как и в случае с метатегом для обычных страниц, <description> PDF будет отображаться под заголовком в поисковой выдаче. Включите в него главные ключевые слова и проследите, чтобы количество символов не превышало 300. В то же время название должно быть привлекательным и полезным, чтобы повысить кликабельность.
Как и в случае с мета описаниями у веб страниц, это не фактор ранжирования, но они помогут вам контролировать текст, который появляется в результатах поиска.
- Нажмите Файл > Свойства (File > Properties)
- Нажмите Additional Metadata
- Отредактируйте Описание
Создайте текстовую копию
Один из наиболее важных шагов – создание текстовой версии PDF-файла, а не изображения, поскольку изображение не просканируется или просканируется с использованием технологии оптического распознавания символов (OCR) и конвертирует изображения текста в текст, что бывает не всегда корректно. Если ваш документ содержит картинки, содержащие слова, используйте alt-текст, чтобы описать, что это за изображения.
Заполните все поля метаданных PDF в настройках
Несмотря на то, что это не факторы ранжирования, дополнительные поля метаданных в PDF-файлах способствуют успешному сканированию. Как изменить метаданные PDF: чем больше данных вы дадите ботам, тем лучше они поймут ваш контент и определят, как его оценивать.
Нужно правильно редактировать метаданные PDF: обязательно добавьте информацию в поля сохранения в «Файл» –> «Свойства» в Adobe Acrobat. Для узнаваемости вашего бренда впишите его в поле автора. Введите ключевые слова в поле ключевых слов.
Оптимизируйте копию
Используйте ключевые слова, которые вы хотите присвоить для всей копии, – в оглавлении, заголовках и параграфах. Первый заголовок должен совпадать с основным заголовком и именем файла.
Оптимизируйте файл для мобильных устройств
Не секрет, что Google предпочитает мобильный оптимизированный контент. PDF-файлы могут быть длинными и сложными для восприятия на маленьком экране, но есть несколько способов упростить чтение с экранов мобильных устройств. Например, выровняйте текст влево, используйте маркированные списки и полужирное начертание, а также...
Сожмите изображения
Скорость загрузки страницы – это фактор ранжирования. PDF-файлы могут содержать довольно много изображений и графиков, поэтому сожмите изображения, прежде чем добавлять их в свой документ. Для этой цели существует несколько онлайн-инструментов, которые вы можете использовать.
Используйте атрибуты alt для изображений
Чтобы помочь поисковым системам понять изображения, можно добавить текст alt для изображений в файле PDF.
- Нажмите на иконку Ярлыки (Tags) в левом сайдбаре
- Найдите в структуре документа изображение, которому вы хотите добавить текст alt.
- Нажмите на изображение правой клавишей мыши.
- Выберите Свойства (Properties)
- Добавьте соответствующий текст
Используйте подзаголовки
Как и теги подзаголовков (Н1-Н6) на веб страницах, вы можете указать что определённый текст в файле PDF это подзаголовки.
- Нажмите на иконку Ярлыки (Tags) в левом сайдбаре
- Найдите в структуре документа текст, который вы хотите отредактировать
- Нажмите на тег правой клавишей мыши
- Нажмите Свойства (Properties)
- Выберите соответствующий заголовок из выпадающего списка
Используйте ссылки
Как и на любой другой страницу, внутренние и внешние ссылки влияют на ранжирование. Ссылки передают PageRank, а анкоры добавляют контекст. Используя входящие и исходящие ссылки в PDF файле, вы помогаете PageRank перетекать по сайту, не создавая тупиков. Некоторые PDF файлы получают кучу ссылок. Лари Пейдж однажды сказал, что “Оказывается, что лауреатов Нобелевской премии цитируют в 10 тысячах разных исследований”.
Пример. Проверьте документ GDPR. На него ссылается 77 тысяч страниц на 823 доменах, но у него нет исходящих ссылок. Это упущенная возможность. Добавив несколько внутренних ссылок на другие страницы, можно помочь им ранжироваться лучше.
Еще пример от Google. У их Руководства по поисковой оптимизации для начинающих 3370 ссылок из 754 доменов и они правильно сделали, что передают ценность другим страницам, оставляя на них ссылки из файла PDF.
Чтобы добавить ссылки в PDF:
- Нажмите кнопку Редактировать PDF (Edit PDF) в правом сайдбаре
- Нажмите выпадающий список Ссылки (Link) в меню Редактирования
- Нажмите Добавить/Отредактировать ссылку (Add/Edit Web or Document Link)
- Нарисуйте прямоугольник вокруг текста, в котором вы хотите оставить ссылку
- Выберите Тип ссылки (Link type) Невидимый прямоугольник Invisible Rectangle
- Выберите Действие ссылки (Link Action) — Открыть веб страницу (Open a web page)
Вывод: Если вам не нужна индексация PDF, то закрывайте ее. Если нужна, то оптимизируйте PDF файлы перед загрузкой и размещением ссылки на сайте.