1

Тема: Автоматическое разделение Латиницы и кирилицы

Есть много англо - русских словарей в PDF которые необходимо перевести в WORD или EXCEL в виде таблицы. В идеале хотелось бы автоматически заменить пробел между Латиницей и кириллицей заменить на знак табулятора, но практически не получается.
Возможно ли это реализовать средствами WORD или EXCEL?

Post's attachments

словарь.JPG 172.42 Кб, файл не был скачан. 

You don't have the permssions to download the attachments of this post.

2

Re: Автоматическое разделение Латиницы и кирилицы

greensnace пишет:

Есть много англо - русских словарей в PDF которые необходимо перевести в WORD или EXCEL в виде таблицы. В идеале хотелось бы автоматически заменить пробел между Латиницей и кириллицей заменить на знак табулятора, но практически не получается.
Возможно ли это реализовать средствами WORD или EXCEL?

Теоретически это можно сделать с помощью шаблонов замены (латинская буква, пробел, русская буква), при этом табуляция будет вставляться в всех таких случаях, а не только после первого слова.
Другой вариант - можно вставлять табуляцию после первого слова в абзаце, но не факт, что второе слово не окажется тоже английским.

Удобной и приятной работы в Word!
Перевести спасибо на Яндекс кошелёк - 41001162202962; на WebMoney - R581830807057.

3

Re: Автоматическое разделение Латиницы и кирилицы

greensnace пишет:

Есть много англо - русских словарей в PDF которые необходимо перевести в WORD или EXCEL в виде таблицы. В идеале хотелось бы автоматически заменить пробел между Латиницей и кириллицей заменить на знак табулятора, но практически не получается.
Возможно ли это реализовать средствами WORD или EXCEL?

Если можно, то лучше для обработки планируйте не PDF-файлы, а  файлы Word. Дело в том, что PDF-файл может быть сформирован нехитрым инструментом, преобразующим текст в картинку, и тогда вы из такого файла с помощью VBA ничего не прочтете. То есть, я предлагаю для начала сконвертировать все ваши PDF-файлы в файлы Word (если нет оригиналов на самом Word). Хороший инструмент, напр., Solid Converter PDF или ABBYY PDF Transformer. Их преимущество в том, что они, используя принцип распознавания текста, превращают файлы PDF в редактируемый формат, который может быть программно обработан.

Если PDF сформирован из Word путем экспорта или через Acrobat Professional, то можно попытаться читать его - примеры есть (см., напр., внешняя ссылка

По алгоритму обработки (если бы текст словаря был в Word): он довольно простой. Просканировать абзацы текста. Если абзац непустой и содержит вначале нерусский текст, то выделить этот текст и из него сформировать статью исходного слова, а из остатка абзаца - статью перевода. Разумеется, это только грубая обработка.

4

Re: Автоматическое разделение Латиницы и кирилицы

Если структура словарей такая, как показана на рисунке в стартовом посте, можно воспользоваться поиском с использованием подстановочных знаков.
Опция "Подстановочные знаки" включена
Первый проход: заменяем знак абзаца на пробел, когда русский текст переносится на следующую строку (обработка варианта первых двух строк гладкого текста на рисунке).
строка поиска:
(<[А-ЯЁа-яё]{1;})^013([А-ЯЁа-яё]{1;})
строка замены:
\1 \2
Второй проход, вставка знака табуляции после английского текста, который идет после знака абзаца. Чтобы учитывались английские словосочетания, кроме букв английского алфавита в строку поиска включены знаки короткого и длинного тире, неразрывного дефиса, неразрывного пробела и простого пробела.
Строка поиска:
(^013[A-Za-z^+^=^~^s ]{1;})
Строка замены:
\1^t

Подробнее о поиске и замене с использованием подстановочных знаков смотрите здесь:
внешняя ссылка
внешняя ссылка
Материал по этим ссылкам хорошо дополняет друг друга в части примеров использования.