Потрошим файлы PDF

  • Тут может быть ваша реклама
26 Мар 2004
545
11
68
83
LukaCity(Minsk)
Credits
0
Автор: МК

Потрошим файлы PDF

Иногда возникает задача изменения файла PDF, например для его перевода или редактирования. Вроде бы существует специальное приложение Adobe Acrobat, которое по замыслу его создателей должно обеспечить редактирование наших файлов (заметим, что бесплатная программа Acrobat Reader служит исключительно для просмотра файлов PDF). В Интернете можно найти множество советов "бывалых" пользователей, рекомендующих использовать для редактирования PDF именно Adobe Acrobat, но очевидно, что эти люди никогда сами не проводили такой операции, хотя как говорится "советы в нашей стране бесплатны".

Итак, небольшой собственный опыт локализации файлов PDF позволяет поделиться с читателями реальными и проверенными на практике советами. Начнем с безопасности. Не все файлы PDF допускают хоть какое-либо изменение. Во время создания файла можно задать разнообразные параметры безопасности, определяющие допустимость разных операций с этим файлом. Если файл PDF вообще не удается открыть в Acrobat Reader (здесь и далее мы ведем речь о шестой версии этой программы), значит файл защищен паролем, который и будет запрошен во время открытия (это очень редкая ситуация, характерная только для конфиденциальной информации). Если же файл открывается, то выполняем команду File/Document Properties и выбираем раздел Security, где перечислены заданные для файла ограничения. Нас интересует пункт Content Copying and Extraction (копирование и извлечение информационного содержимого), позволяющий залезать и копировать фрагменты файла, т.е. определяющий допустимость операции извлечения данных из файла. Значением параметра может быть Allowed (разрешено) или Not Allowed (запрещено). В первом случае разрешены операции Select Text (выделение текста) и Select Image (выделение рисунка). Выделение это выполняется мышью, причем в контекстном меню присутствует пункт Copy To Clipboard (копировать в буфер [обмена Windows]), вроде бы позволяющий перенести фрагменты файла в другое приложение. Получается это не всегда, причем лучше сказать никогда (если файл PDF английский), но об этом ниже.

Закрываем "читатель" Acrobat Reader и открываем "редактор" Adobe Acrobat (рассматривается версия 6.0 Professional, хотя есть еще Standard). По сравнению с Acrobat Reader появится дополнительная команда Select Table (выделение таблицы), а в окне сохранения File/Save As показано множество форматов для сохранения файла, включая формат DOC редактора Word, а не только PDF и текстовый формат, как это было в Acrobat Reader. Более того, выделенный текстовый фрагмент теперь удачно вставляется в документ Word, даже если раньше аналогичная операция из Acrobat Reader приводила к горизонтальным линиям в документе DOC. Дело конечно не в том, что "Adobe Acrobat лучше Acrobat Reader", просто теперь Adobe Acrobat передает системе Windows информацию об исходном шрифте, что позволяет этой системе при вводе текста в Word заменить шрифт Type 1 на подходящий шрифт TrueType (обычно Times New Roman). Заметим, что Word все равно показывает имя исходного шрифта, хотя на самом деле шрифт был заменен другим (трюк этот проходит и для преобразования Type 1 в TrueType). Однако в Adobe Acrobat, во-первых, не всегда удается выделить текст, а во-вторых - удачно его вставить. Чтобы разобраться в этих мистических превращениях, нужно немного поговорить о шрифтах, форматах и преобразованиях.

Если в документе PDF запрещено копирование (Content Copying and Extraction = Not Allowed), можно использовать одну из программ снятия защиты (скажем Advanced PDF Password Recovery Pro от отечественной ElcomSoft). Для редактирования текста (если это возможно) непосредственно в Adobe Acrobat необходимо установить на компьютер все шрифты Type 1 (или TrueType), использованные в документе (см. File/Document Properties/Fonts), причем для локализации эти шрифты должны поддерживать кириллическую кодировку. Современные шрифты Type 1 в некотором смысле подобны Unicod, поскольку допускают работу с любой кодировкой, в том числе и с русскими символами (отмечены именами afii10049). Встроенные в документ шрифты этого не обеспечивают (ведь документ английский), поэтому подобрать все шрифты вряд ли удастся. Кроме того, некоторые тексты в документах PDF вообще являются рисунками, поэтому не допускают никакого "текстового" редактирования. Adobe Acrobat не имеет никаких средств для замены шрифтов (несмотря на специальный файл Fontmap для отображения шрифтов при выводе) или изменения языка (кодировки уже готового документа), поэтому в Word мы сможем передать (не всегда успешно) только то, что выделяется мышью в окне Adobe Acrobat или то, что попадает в документ Word после сохранения файла PDF в формате DOC.

Здесь возникает резонный вопрос: "Почему все так сложно?". Ответ прост: файл PDF является "окончательным" вариантом, не предназначенным для редактирования (не случайно эти файлы получаются в процессе вывода на печать через драйвер Adobe PDF или Acrobat Distiller). Правильной последовательностью действий была бы работа с "исходными" файлами других приложений, из которых и был получен документ PDF. Но найти такие файлы обычно не представляется возможным, поскольку из-за больших размеров их стирают сами авторы первичных английских документов PDF. Стандартные средства локализации, например TRADOS, предполагают, что все файлы PDF должны создаваться в приложении FrameMaker, поэтому поддерживают работу только с файлами mif, для которых и обеспечивают подстановку шрифтов. Между тем, исходный документ для страницы файла PDF можно создать в любом приложении Windows, поддерживающим вывод на печать. Существует способ импорта готового файла PDF обратно в приложение FrameMaker с "расшивкой" по отдельным страницам. Но в этом случае отдельные страницы файла трактуются как рисунки. В Интернете можно найти множество программ для извлечения информации из файлов PDF (вспомним бесплатную pdf995 от Software995 или коммерческую Gemini Solo от Iceni), но работают они гораздо хуже рассмотренных нами выше стандартных способов сохранения файла PDF из Adobe Acrobat в другом формате (поскольку утилиты были созданы тогда, когда Adobe Acrobat "не умел" записывать файл в другом формате).

К счастью, вводить PDF в виде графики научилась программа распознавания текстов Abby FineReader 7.0, поэтому вне зависимости от графической или текстовой сущности текстового фрагмента после ввода и распознавания можно получить обычный текст Windows в шрифтах TrueType.

Таким образом, "потрошить" файлы PDF можно тремя способами: * Копирование/вставка непосредственно в окне Adobe Acrobat (причем отдельно для текста, рисунков и таблиц); * Сохранение в формате DOC (или любом другом из поддерживаемых) из Adobe Acrobat; * Ввод с последующим распознаванием в FineReader и дальнейшим сохранением в формате DOC.

Полученный текст собирается вместе исходя из правила "наилучшей сохранности" (распознавание всегда сопровождается некоторым незначительным количеством ошибок), затем редактируется или переводится. Отдельно создаются локализованные версии рисунков (с измененными надписями). Все это нужно собрать в новый файл PDF, во время выполнения так называемой "верстки". Попутно отметим новое средство Adobe Acrobat 6.0 - Snapshot Tool, позволяющее сделать графический "снимок" с экрана любой части страницы PDF, вне зависимости от ее сущности (текст, рисунок или таблица). Особенно рекомендуем это средство для "обрезания" больших рисунков с последующей вставкой в любой графический редактор.

Если бы были под рукой исходные файлы, то верстка не создавала бы никаких проблем . достаточно было бы заменить английский текст русским. Однако после "потрошения" мы получаем некоторый набор рисунков, фрагментов текста и таблиц, которые нужно максимально точно сопоставить с исходным макетом файла. Поэтому основным принципом верстки станет наложение новых текстовых фрагментов на графическое изображение исходной страницы PDF, либо "верстка с нуля" с использованием всех полученных ранее компонентов. Первый способ рекомендуется для сложных страниц с множеством визуальных эффектов. Можно использовать графический редактор Photoshop, который позволяет успешно ввести любую страницу из многостраничного файла PDF. Далее удаляет графические изображения английских текстовых фрагментов (предварительно можно записать "пипеткой" исходный цвет), восстанавливаем фон на удаленной области и вставляем переведенный "русский" фрагмент, подстроив его цвет и шрифт. Графический редактор Photoshop так и не удалось заставить переносить текст не только по переносам (дефисам), но и по словам, поэтому после вставки приходится вручную расставлять клавишей Enter символы завершения строк. Для страниц с преобладанием текста верстку можно провести непосредственно в Word. В обоих случаях мы получаем отдельную страницу готового документа, а после перевода (исправления) всех страниц нужно собрать все эти страницы в один файл PDF. Вот здесь и пригодится Adobe Acrobat: File/Create PDF/From Multiple Files, щелкаем Add Files и указываем все страницы в правильной последовательности. Затем остается только сохранить готовый файл PDF, но предварительно можно уменьшить его размер, если вместо типографской печати предполагается только публикация в Интернете. Для этого служит команда File/Reduce File Size.
 
S

SAmigos

Гость
Попробуй вот эту прогу.
Найти нашел, а руки опробовать не доходят. Зацени!
Scansoft PDF Converter Pro v3.0

Данное приложение позиционируется разработчиками как комплексное и качественно решение для бизнес-пользователей.
ScanSoft PDF Converter Professional3 обеспечивает такие возможности, как быстрое и
безопасное создание PDF-файлов; их редактирование, включая форматирование текста и манипуляцию изображениями; преобразование PDF-форм с целью обеспечения возможности их заполнения в электронном виде; и преобразование PDF-документов в другие форматы, включая Microsoft Word и Excel, а также Corel WordPerfect.

Качать:
http://www210.fixdown.com/arn-pd05-2005-06-13.rar
Ключ:
http://www.qfile.de/dl/49775/pdfcp3.0.rar.html
Пароль на архив: www.2baksa.net
 
  • Like
Реакции: xanter и Katherine

di35e1

Турист
6 Июн 2004
757
11
68
43
msk
Credits
0
•cRomweLL• написал(а):
Первый способ рекомендуется для сложных страниц с множеством визуальных эффектов. Можно использовать графический редактор Photoshop, который позволяет успешно ввести любую страницу из многостраничного файла PDF. Далее удаляет графические изображения английских текстовых фрагментов (предварительно можно записать "пипеткой" исходный цвет), восстанавливаем фон на удаленной области и вставляем переведенный "русский" фрагмент, подстроив его цвет и шрифт. Графический редактор Photoshop так и не удалось заставить переносить текст не только по переносам (дефисам), но и по словам, поэтому после вставки приходится вручную расставлять клавишей Enter символы завершения строк.


по моему для этого больше иллюстратор подходит : )
 

Smile

Турист
12 Мар 2004
30
1
13
69
Alma-Ata
Посетить сайт
Credits
0
Есть еще ABBYY PDF Transformer
Из справки:
Что такое ABBYY PDF Transformer 1.0?

Программа ABBYY PDF Transformer 1.0 предназначена для конвертирования PDF-документов в форматы, позволяющие редактировать содержимое документов. В основе ABBYY PDF Transformer лежит признанная в мире система оптического распознавания символов (OCR) и технология анализа документов ABBYY FineReader, благодаря которой ABBYY PDF Transformer 1.0 является наиболее полным решением для конвертирования PDF-документов, позволяющим не только конвертировать PDF-файл в редактируемый формат, но и сохранить исходное форматирование страницы.

ABBYY PDF Transformer позволяет обрабатывать все PDF-файлы, независимо от того, каким образом они были созданы. ABBYY PDF Transformer поддерживает аутентичные Adobe установки защиты PDF-файлов. Для обработки PDF-файлов, защищенных паролем, необходимо указать пароль.

ABBYY PDF Transformer интегрируется с Проводником (Windows Explorer) и с приложениями Microsoft Office (Word, Excel, Outlook). Вы можете конвертировать PDF-файл непосредственно из этих программ, а затем открыть новый документ в Microsoft Word и Microsoft Excel для последующего редактирования или же сохранить конвертированный документ в одном из редактируемых форматов:

DOC,

RTF,

XLS,

HTML,

TXT.

Достоинством программы ABBYY PDF Transformer является гибкость настроек, позволяющая:

ускорить и упростить работу с объемными PDF-документами за счет конвертирования не всего документа, а лишь выбранных страниц;

повысить точность конвертирования, указав языки, на которых написан обрабатываемый документ;

уменьшить размер конечного файла за счет уменьшения разрешения и выбора качества для изображений, присутствующих конечном файле.

Программа проста и удобна в использовании. Для удобства работы в программе есть Мастер конвертирования ABBYY PDF Transformer, который последовательно проведет вас по всем этапам процесса конвертирования.
 

XPEHOMETP

Турист
21 Окт 2005
245
6
53
62
С.-Петербург
Credits
0
Smile написал(а):
Есть еще ABBYY PDF Transformer .
Прога хорошая и удобная, но (в отличие от Fine Reader) не позволяет по ходу дела подкорректировать результат оптического распознавания. И получается, что где-то какие-то значки не так поняты, а где-то рисунок, записанный в векторном формате, изображен как набор бессмысленных значков... Но таких ляпов не так уж много. И удалось получить приличный документ даже из такой хренотени, где чуть ли не строчка на строчку наезжает (не знаю, как уж они такое в PDF записали).