Автоматическое разделение Латиницы и кирилицы

1 Тема от greensnace 23.04.2015 16:01:13

greensnace
рядовой
Неактивен

Зарегистрирован: 23.04.2015
Сообщений: 1

Тема: Автоматическое разделение Латиницы и кирилицы

Есть много англо - русских словарей в PDF которые необходимо перевести в WORD или EXCEL в виде таблицы. В идеале хотелось бы автоматически заменить пробел между Латиницей и кириллицей заменить на знак табулятора, но практически не получается.
Возможно ли это реализовать средствами WORD или EXCEL?

Post's attachments

словарь.JPG 172.42 Кб, файл не был скачан.

You don't have the permssions to download the attachments of this post.

2 Ответ от Alex_Gur 23.04.2015 16:52:55

Alex_Gur
Модератор
Неактивен

Откуда: Москва
Зарегистрирован: 28.07.2011
Сообщений: 2,758
Поблагодарили: 492

Re: Автоматическое разделение Латиницы и кирилицы

greensnace пишет:

Есть много англо - русских словарей в PDF которые необходимо перевести в WORD или EXCEL в виде таблицы. В идеале хотелось бы автоматически заменить пробел между Латиницей и кириллицей заменить на знак табулятора, но практически не получается.
Возможно ли это реализовать средствами WORD или EXCEL?

Теоретически это можно сделать с помощью шаблонов замены (латинская буква, пробел, русская буква), при этом табуляция будет вставляться в всех таких случаях, а не только после первого слова.
Другой вариант - можно вставлять табуляцию после первого слова в абзаце, но не факт, что второе слово не окажется тоже английским.

Удобной и приятной работы в Word!
Перевести спасибо на Яндекс кошелёк - 41001162202962; на WebMoney - R581830807057.

3 Ответ от yshindin 23.04.2015 17:14:22

yshindin
генерал-полковник
Неактивен

Откуда: Москва
Зарегистрирован: 12.05.2012
Сообщений: 447
Поблагодарили: 171

Re: Автоматическое разделение Латиницы и кирилицы

greensnace пишет:

Есть много англо - русских словарей в PDF которые необходимо перевести в WORD или EXCEL в виде таблицы. В идеале хотелось бы автоматически заменить пробел между Латиницей и кириллицей заменить на знак табулятора, но практически не получается.
Возможно ли это реализовать средствами WORD или EXCEL?

Если можно, то лучше для обработки планируйте не PDF-файлы, а файлы Word. Дело в том, что PDF-файл может быть сформирован нехитрым инструментом, преобразующим текст в картинку, и тогда вы из такого файла с помощью VBA ничего не прочтете. То есть, я предлагаю для начала сконвертировать все ваши PDF-файлы в файлы Word (если нет оригиналов на самом Word). Хороший инструмент, напр., Solid Converter PDF или ABBYY PDF Transformer. Их преимущество в том, что они, используя принцип распознавания текста, превращают файлы PDF в редактируемый формат, который может быть программно обработан.

Если PDF сформирован из Word путем экспорта или через Acrobat Professional, то можно попытаться читать его - примеры есть (см., напр., внешняя ссылка

По алгоритму обработки (если бы текст словаря был в Word): он довольно простой. Просканировать абзацы текста. Если абзац непустой и содержит вначале нерусский текст, то выделить этот текст и из него сформировать статью исходного слова, а из остатка абзаца - статью перевода. Разумеется, это только грубая обработка.

Сайтyshindin

4 Ответ от Boris_R 25.04.2015 00:22:42

Boris_R
полковник
Неактивен

Зарегистрирован: 07.08.2012
Сообщений: 234
Поблагодарили: 110

Re: Автоматическое разделение Латиницы и кирилицы

Если структура словарей такая, как показана на рисунке в стартовом посте, можно воспользоваться поиском с использованием подстановочных знаков.
Опция "Подстановочные знаки" включена
Первый проход: заменяем знак абзаца на пробел, когда русский текст переносится на следующую строку (обработка варианта первых двух строк гладкого текста на рисунке).
строка поиска:
(<[А-ЯЁа-яё]{1;})^013([А-ЯЁа-яё]{1;})
строка замены:
\1 \2
Второй проход, вставка знака табуляции после английского текста, который идет после знака абзаца. Чтобы учитывались английские словосочетания, кроме букв английского алфавита в строку поиска включены знаки короткого и длинного тире, неразрывного дефиса, неразрывного пробела и простого пробела.
Строка поиска:
(^013[A-Za-z^+^=^~^s ]{1;})
Строка замены:
\1^t

Подробнее о поиске и замене с использованием подстановочных знаков смотрите здесь:
внешняя ссылка
внешняя ссылка
Материал по этим ссылкам хорошо дополняет друг друга в части примеров использования.

Автоматическое разделение Латиницы и кирилицы

Сообщений [ 4 ]

1 Тема от greensnace 23.04.2015 16:01:13

Тема: Автоматическое разделение Латиницы и кирилицы

2 Ответ от Alex_Gur 23.04.2015 16:52:55

Re: Автоматическое разделение Латиницы и кирилицы

3 Ответ от yshindin 23.04.2015 17:14:22

Re: Автоматическое разделение Латиницы и кирилицы

4 Ответ от Boris_R 25.04.2015 00:22:42

Re: Автоматическое разделение Латиницы и кирилицы

Сообщений [ 4 ]

Похожие темы

страницы

авторство

рубрики