Кто-нибудь читает с Киндла?
- Пушистая няшечка2
- Черный Пояс
- Сообщения: 1042
- Зарегистрирован: 03 окт 2009, 21:27
Думаю те же проблемы будут. Проблема простая - конвертор не обладает искусственным интеллектом. И просто по расположению кусков текста на странице он не сможет догадаться что к какому абзацу относится. Закономерности конечно можно какие-то заложить в алгоритм. Но не так это просто все-таки.Пушистая няшечка писал(а):Тоже как вариант. Но ведь хочется же до последнего сохранить красивое форматирование, если оно есть)Кирилл П. писал(а):А просто перегнать ПДФ в текст (txt)?
У меня, кстати, с конвертированием PDF пока не было проблем (пользуюсь Calibre).
Поэтому одно дело если это просто текст. Тут максимум может лишние абзацы добавить на местах разрыва страниц. А если есть еще и рисунки, таблицы, графики и текст их на разных страницах с разных сторон обтекает? Тогда будут проблемы. Мне вот такой вот попался - пришлось помучится.
Пользовался онлайн-конвертором http://www.convertfiles.com/
Может быть Calibre или http://www.online-convert.com/ бы и лучше обработал мой файл. Теперь уже не узнать.
- Пушистая няшечка2
- Черный Пояс
- Сообщения: 1042
- Зарегистрирован: 03 окт 2009, 21:27
А это какая книжка?Яшка писал(а):А если есть еще и рисунки, таблицы, графики и текст их на разных страницах с разных сторон обтекает?
Лично я вообще не представляю, как специальную литературу с таблицами и т.п... в маленькую читалку загонять. Ее надо как минимум отлично распознать и вычитать все ошибки. А на практике чаще всего - или нераспознанные, или OCR с ошибками.
Ну почему, Акробат позводяет сохранить как в текст правильно разбитый на абзацы, так и в rtf/doc, что вполне подъемно уже для большинства читалок...Яшка писал(а):Думаю те же проблемы будут.Пушистая няшечка писал(а):Тоже как вариант. Но ведь хочется же до последнего сохранить красивое форматирование, если оно есть)Кирилл П. писал(а):А просто перегнать ПДФ в текст (txt)?
У меня, кстати, с конвертированием PDF пока не было проблем (пользуюсь Calibre).
Последний раз редактировалось Кирилл П. 07 дек 2011, 21:29, всего редактировалось 1 раз.
Ну, полагаю речь идет не о том пдф, который - просто контейнер для многостраничных растровых картинок, а про пдф с внедренными шрифтами и прочими элементами декора.Пушистая няшечка писал(а):Лично я вообще не представляю, как специальную литературу с таблицами и т.п... в маленькую читалку загонять. Ее надо как минимум отлично распознать и вычитать все ошибки. А на практике чаще всего - или нераспознанные, или OCR с ошибками.
Кхм. Не знаю даже. Тут на примере, видимо, понять будет проще о чем я говорю. Правда не факт, что найду уже тот pdf. Но попробую.Кирилл П. писал(а):Ну почему, Акробат позводяет сохранить как в текст правильно разбитый на абзацы, так и в rtf/doc, что вполне подъемно уже для большинства читалок...
Найду - выложу. А вы попробуете его нормально сконвертировать. И посмотрим.
Ну и я имел ввиду этот же случай... Просто несколько раз я получал от Акробата совершенно не вообразимую мешанину символов вместо нормально форматированного текста.Кирилл П. писал(а):Для распознавания Файнридер прекрасен, безусловно. Я имел в виду ПДФ, ктр не надо распознавать, с векторным текстом. Ну, типа как если из Ворда перегнать )
Теперь я сначала пробую получить текстовый файл с помощью акробата, а если он не справляется, использую Файнридер.
Проблемный PDF http://files.mail.ru/UOAROE