Автор: МК
Потрошим файлы PDF
Иногда возникает задача изменения файла PDF, например для его перевода или редактирования. Вроде бы существует специальное приложение Adobe Acrobat, которое по замыслу его создателей должно обеспечить редактирование наших файлов (заметим, что бесплатная программа Acrobat Reader служит исключительно для просмотра файлов PDF). В Интернете можно найти множество советов "бывалых" пользователей, рекомендующих использовать для редактирования PDF именно Adobe Acrobat, но очевидно, что эти люди никогда сами не проводили такой операции, хотя как говорится "советы в нашей стране бесплатны".
Итак, небольшой собственный опыт локализации файлов PDF позволяет поделиться с читателями реальными и проверенными на практике советами. Начнем с безопасности. Не все файлы PDF допускают хоть какое-либо изменение. Во время создания файла можно задать разнообразные параметры безопасности, определяющие допустимость разных операций с этим файлом. Если файл PDF вообще не удается открыть в Acrobat Reader (здесь и далее мы ведем речь о шестой версии этой программы), значит файл защищен паролем, который и будет запрошен во время открытия (это очень редкая ситуация, характерная только для конфиденциальной информации). Если же файл открывается, то выполняем команду File/Document Properties и выбираем раздел Security, где перечислены заданные для файла ограничения. Нас интересует пункт Content Copying and Extraction (копирование и извлечение информационного содержимого), позволяющий залезать и копировать фрагменты файла, т.е. определяющий допустимость операции извлечения данных из файла. Значением параметра может быть Allowed (разрешено) или Not Allowed (запрещено). В первом случае разрешены операции Select Text (выделение текста) и Select Image (выделение рисунка). Выделение это выполняется мышью, причем в контекстном меню присутствует пункт Copy To Clipboard (копировать в буфер [обмена Windows]), вроде бы позволяющий перенести фрагменты файла в другое приложение. Получается это не всегда, причем лучше сказать никогда (если файл PDF английский), но об этом ниже.
Закрываем "читатель" Acrobat Reader и открываем "редактор" Adobe Acrobat (рассматривается версия 6.0 Professional, хотя есть еще Standard). По сравнению с Acrobat Reader появится дополнительная команда Select Table (выделение таблицы), а в окне сохранения File/Save As показано множество форматов для сохранения файла, включая формат DOC редактора Word, а не только PDF и текстовый формат, как это было в Acrobat Reader. Более того, выделенный текстовый фрагмент теперь удачно вставляется в документ Word, даже если раньше аналогичная операция из Acrobat Reader приводила к горизонтальным линиям в документе DOC. Дело конечно не в том, что "Adobe Acrobat лучше Acrobat Reader", просто теперь Adobe Acrobat передает системе Windows информацию об исходном шрифте, что позволяет этой системе при вводе текста в Word заменить шрифт Type 1 на подходящий шрифт TrueType (обычно Times New Roman). Заметим, что Word все равно показывает имя исходного шрифта, хотя на самом деле шрифт был заменен другим (трюк этот проходит и для преобразования Type 1 в TrueType). Однако в Adobe Acrobat, во-первых, не всегда удается выделить текст, а во-вторых - удачно его вставить. Чтобы разобраться в этих мистических превращениях, нужно немного поговорить о шрифтах, форматах и преобразованиях.
Если в документе PDF запрещено копирование (Content Copying and Extraction = Not Allowed), можно использовать одну из программ снятия защиты (скажем Advanced PDF Password Recovery Pro от отечественной ElcomSoft). Для редактирования текста (если это возможно) непосредственно в Adobe Acrobat необходимо установить на компьютер все шрифты Type 1 (или TrueType), использованные в документе (см. File/Document Properties/Fonts), причем для локализации эти шрифты должны поддерживать кириллическую кодировку. Современные шрифты Type 1 в некотором смысле подобны Unicod, поскольку допускают работу с любой кодировкой, в том числе и с русскими символами (отмечены именами afii10049). Встроенные в документ шрифты этого не обеспечивают (ведь документ английский), поэтому подобрать все шрифты вряд ли удастся. Кроме того, некоторые тексты в документах PDF вообще являются рисунками, поэтому не допускают никакого "текстового" редактирования. Adobe Acrobat не имеет никаких средств для замены шрифтов (несмотря на специальный файл Fontmap для отображения шрифтов при выводе) или изменения языка (кодировки уже готового документа), поэтому в Word мы сможем передать (не всегда успешно) только то, что выделяется мышью в окне Adobe Acrobat или то, что попадает в документ Word после сохранения файла PDF в формате DOC.
Здесь возникает резонный вопрос: "Почему все так сложно?". Ответ прост: файл PDF является "окончательным" вариантом, не предназначенным для редактирования (не случайно эти файлы получаются в процессе вывода на печать через драйвер Adobe PDF или Acrobat Distiller). Правильной последовательностью действий была бы работа с "исходными" файлами других приложений, из которых и был получен документ PDF. Но найти такие файлы обычно не представляется возможным, поскольку из-за больших размеров их стирают сами авторы первичных английских документов PDF. Стандартные средства локализации, например TRADOS, предполагают, что все файлы PDF должны создаваться в приложении FrameMaker, поэтому поддерживают работу только с файлами mif, для которых и обеспечивают подстановку шрифтов. Между тем, исходный документ для страницы файла PDF можно создать в любом приложении Windows, поддерживающим вывод на печать. Существует способ импорта готового файла PDF обратно в приложение FrameMaker с "расшивкой" по отдельным страницам. Но в этом случае отдельные страницы файла трактуются как рисунки. В Интернете можно найти множество программ для извлечения информации из файлов PDF (вспомним бесплатную pdf995 от Software995 или коммерческую Gemini Solo от Iceni), но работают они гораздо хуже рассмотренных нами выше стандартных способов сохранения файла PDF из Adobe Acrobat в другом формате (поскольку утилиты были созданы тогда, когда Adobe Acrobat "не умел" записывать файл в другом формате).
К счастью, вводить PDF в виде графики научилась программа распознавания текстов Abby FineReader 7.0, поэтому вне зависимости от графической или текстовой сущности текстового фрагмента после ввода и распознавания можно получить обычный текст Windows в шрифтах TrueType.
Таким образом, "потрошить" файлы PDF можно тремя способами: * Копирование/вставка непосредственно в окне Adobe Acrobat (причем отдельно для текста, рисунков и таблиц); * Сохранение в формате DOC (или любом другом из поддерживаемых) из Adobe Acrobat; * Ввод с последующим распознаванием в FineReader и дальнейшим сохранением в формате DOC.
Полученный текст собирается вместе исходя из правила "наилучшей сохранности" (распознавание всегда сопровождается некоторым незначительным количеством ошибок), затем редактируется или переводится. Отдельно создаются локализованные версии рисунков (с измененными надписями). Все это нужно собрать в новый файл PDF, во время выполнения так называемой "верстки". Попутно отметим новое средство Adobe Acrobat 6.0 - Snapshot Tool, позволяющее сделать графический "снимок" с экрана любой части страницы PDF, вне зависимости от ее сущности (текст, рисунок или таблица). Особенно рекомендуем это средство для "обрезания" больших рисунков с последующей вставкой в любой графический редактор.
Если бы были под рукой исходные файлы, то верстка не создавала бы никаких проблем . достаточно было бы заменить английский текст русским. Однако после "потрошения" мы получаем некоторый набор рисунков, фрагментов текста и таблиц, которые нужно максимально точно сопоставить с исходным макетом файла. Поэтому основным принципом верстки станет наложение новых текстовых фрагментов на графическое изображение исходной страницы PDF, либо "верстка с нуля" с использованием всех полученных ранее компонентов. Первый способ рекомендуется для сложных страниц с множеством визуальных эффектов. Можно использовать графический редактор Photoshop, который позволяет успешно ввести любую страницу из многостраничного файла PDF. Далее удаляет графические изображения английских текстовых фрагментов (предварительно можно записать "пипеткой" исходный цвет), восстанавливаем фон на удаленной области и вставляем переведенный "русский" фрагмент, подстроив его цвет и шрифт. Графический редактор Photoshop так и не удалось заставить переносить текст не только по переносам (дефисам), но и по словам, поэтому после вставки приходится вручную расставлять клавишей Enter символы завершения строк. Для страниц с преобладанием текста верстку можно провести непосредственно в Word. В обоих случаях мы получаем отдельную страницу готового документа, а после перевода (исправления) всех страниц нужно собрать все эти страницы в один файл PDF. Вот здесь и пригодится Adobe Acrobat: File/Create PDF/From Multiple Files, щелкаем Add Files и указываем все страницы в правильной последовательности. Затем остается только сохранить готовый файл PDF, но предварительно можно уменьшить его размер, если вместо типографской печати предполагается только публикация в Интернете. Для этого служит команда File/Reduce File Size.
Потрошим файлы PDF
Иногда возникает задача изменения файла PDF, например для его перевода или редактирования. Вроде бы существует специальное приложение Adobe Acrobat, которое по замыслу его создателей должно обеспечить редактирование наших файлов (заметим, что бесплатная программа Acrobat Reader служит исключительно для просмотра файлов PDF). В Интернете можно найти множество советов "бывалых" пользователей, рекомендующих использовать для редактирования PDF именно Adobe Acrobat, но очевидно, что эти люди никогда сами не проводили такой операции, хотя как говорится "советы в нашей стране бесплатны".
Итак, небольшой собственный опыт локализации файлов PDF позволяет поделиться с читателями реальными и проверенными на практике советами. Начнем с безопасности. Не все файлы PDF допускают хоть какое-либо изменение. Во время создания файла можно задать разнообразные параметры безопасности, определяющие допустимость разных операций с этим файлом. Если файл PDF вообще не удается открыть в Acrobat Reader (здесь и далее мы ведем речь о шестой версии этой программы), значит файл защищен паролем, который и будет запрошен во время открытия (это очень редкая ситуация, характерная только для конфиденциальной информации). Если же файл открывается, то выполняем команду File/Document Properties и выбираем раздел Security, где перечислены заданные для файла ограничения. Нас интересует пункт Content Copying and Extraction (копирование и извлечение информационного содержимого), позволяющий залезать и копировать фрагменты файла, т.е. определяющий допустимость операции извлечения данных из файла. Значением параметра может быть Allowed (разрешено) или Not Allowed (запрещено). В первом случае разрешены операции Select Text (выделение текста) и Select Image (выделение рисунка). Выделение это выполняется мышью, причем в контекстном меню присутствует пункт Copy To Clipboard (копировать в буфер [обмена Windows]), вроде бы позволяющий перенести фрагменты файла в другое приложение. Получается это не всегда, причем лучше сказать никогда (если файл PDF английский), но об этом ниже.
Закрываем "читатель" Acrobat Reader и открываем "редактор" Adobe Acrobat (рассматривается версия 6.0 Professional, хотя есть еще Standard). По сравнению с Acrobat Reader появится дополнительная команда Select Table (выделение таблицы), а в окне сохранения File/Save As показано множество форматов для сохранения файла, включая формат DOC редактора Word, а не только PDF и текстовый формат, как это было в Acrobat Reader. Более того, выделенный текстовый фрагмент теперь удачно вставляется в документ Word, даже если раньше аналогичная операция из Acrobat Reader приводила к горизонтальным линиям в документе DOC. Дело конечно не в том, что "Adobe Acrobat лучше Acrobat Reader", просто теперь Adobe Acrobat передает системе Windows информацию об исходном шрифте, что позволяет этой системе при вводе текста в Word заменить шрифт Type 1 на подходящий шрифт TrueType (обычно Times New Roman). Заметим, что Word все равно показывает имя исходного шрифта, хотя на самом деле шрифт был заменен другим (трюк этот проходит и для преобразования Type 1 в TrueType). Однако в Adobe Acrobat, во-первых, не всегда удается выделить текст, а во-вторых - удачно его вставить. Чтобы разобраться в этих мистических превращениях, нужно немного поговорить о шрифтах, форматах и преобразованиях.
Если в документе PDF запрещено копирование (Content Copying and Extraction = Not Allowed), можно использовать одну из программ снятия защиты (скажем Advanced PDF Password Recovery Pro от отечественной ElcomSoft). Для редактирования текста (если это возможно) непосредственно в Adobe Acrobat необходимо установить на компьютер все шрифты Type 1 (или TrueType), использованные в документе (см. File/Document Properties/Fonts), причем для локализации эти шрифты должны поддерживать кириллическую кодировку. Современные шрифты Type 1 в некотором смысле подобны Unicod, поскольку допускают работу с любой кодировкой, в том числе и с русскими символами (отмечены именами afii10049). Встроенные в документ шрифты этого не обеспечивают (ведь документ английский), поэтому подобрать все шрифты вряд ли удастся. Кроме того, некоторые тексты в документах PDF вообще являются рисунками, поэтому не допускают никакого "текстового" редактирования. Adobe Acrobat не имеет никаких средств для замены шрифтов (несмотря на специальный файл Fontmap для отображения шрифтов при выводе) или изменения языка (кодировки уже готового документа), поэтому в Word мы сможем передать (не всегда успешно) только то, что выделяется мышью в окне Adobe Acrobat или то, что попадает в документ Word после сохранения файла PDF в формате DOC.
Здесь возникает резонный вопрос: "Почему все так сложно?". Ответ прост: файл PDF является "окончательным" вариантом, не предназначенным для редактирования (не случайно эти файлы получаются в процессе вывода на печать через драйвер Adobe PDF или Acrobat Distiller). Правильной последовательностью действий была бы работа с "исходными" файлами других приложений, из которых и был получен документ PDF. Но найти такие файлы обычно не представляется возможным, поскольку из-за больших размеров их стирают сами авторы первичных английских документов PDF. Стандартные средства локализации, например TRADOS, предполагают, что все файлы PDF должны создаваться в приложении FrameMaker, поэтому поддерживают работу только с файлами mif, для которых и обеспечивают подстановку шрифтов. Между тем, исходный документ для страницы файла PDF можно создать в любом приложении Windows, поддерживающим вывод на печать. Существует способ импорта готового файла PDF обратно в приложение FrameMaker с "расшивкой" по отдельным страницам. Но в этом случае отдельные страницы файла трактуются как рисунки. В Интернете можно найти множество программ для извлечения информации из файлов PDF (вспомним бесплатную pdf995 от Software995 или коммерческую Gemini Solo от Iceni), но работают они гораздо хуже рассмотренных нами выше стандартных способов сохранения файла PDF из Adobe Acrobat в другом формате (поскольку утилиты были созданы тогда, когда Adobe Acrobat "не умел" записывать файл в другом формате).
К счастью, вводить PDF в виде графики научилась программа распознавания текстов Abby FineReader 7.0, поэтому вне зависимости от графической или текстовой сущности текстового фрагмента после ввода и распознавания можно получить обычный текст Windows в шрифтах TrueType.
Таким образом, "потрошить" файлы PDF можно тремя способами: * Копирование/вставка непосредственно в окне Adobe Acrobat (причем отдельно для текста, рисунков и таблиц); * Сохранение в формате DOC (или любом другом из поддерживаемых) из Adobe Acrobat; * Ввод с последующим распознаванием в FineReader и дальнейшим сохранением в формате DOC.
Полученный текст собирается вместе исходя из правила "наилучшей сохранности" (распознавание всегда сопровождается некоторым незначительным количеством ошибок), затем редактируется или переводится. Отдельно создаются локализованные версии рисунков (с измененными надписями). Все это нужно собрать в новый файл PDF, во время выполнения так называемой "верстки". Попутно отметим новое средство Adobe Acrobat 6.0 - Snapshot Tool, позволяющее сделать графический "снимок" с экрана любой части страницы PDF, вне зависимости от ее сущности (текст, рисунок или таблица). Особенно рекомендуем это средство для "обрезания" больших рисунков с последующей вставкой в любой графический редактор.
Если бы были под рукой исходные файлы, то верстка не создавала бы никаких проблем . достаточно было бы заменить английский текст русским. Однако после "потрошения" мы получаем некоторый набор рисунков, фрагментов текста и таблиц, которые нужно максимально точно сопоставить с исходным макетом файла. Поэтому основным принципом верстки станет наложение новых текстовых фрагментов на графическое изображение исходной страницы PDF, либо "верстка с нуля" с использованием всех полученных ранее компонентов. Первый способ рекомендуется для сложных страниц с множеством визуальных эффектов. Можно использовать графический редактор Photoshop, который позволяет успешно ввести любую страницу из многостраничного файла PDF. Далее удаляет графические изображения английских текстовых фрагментов (предварительно можно записать "пипеткой" исходный цвет), восстанавливаем фон на удаленной области и вставляем переведенный "русский" фрагмент, подстроив его цвет и шрифт. Графический редактор Photoshop так и не удалось заставить переносить текст не только по переносам (дефисам), но и по словам, поэтому после вставки приходится вручную расставлять клавишей Enter символы завершения строк. Для страниц с преобладанием текста верстку можно провести непосредственно в Word. В обоих случаях мы получаем отдельную страницу готового документа, а после перевода (исправления) всех страниц нужно собрать все эти страницы в один файл PDF. Вот здесь и пригодится Adobe Acrobat: File/Create PDF/From Multiple Files, щелкаем Add Files и указываем все страницы в правильной последовательности. Затем остается только сохранить готовый файл PDF, но предварительно можно уменьшить его размер, если вместо типографской печати предполагается только публикация в Интернете. Для этого служит команда File/Reduce File Size.