1

Тема: При экспорте текста на английском языке в .txt добавляются русские сло

Здравствуйте,
Есть отрывок текста на английаском языке в *.doc при экспорте в txt выявляются какието посторонние русские слова, я предполагаю, что автор составлял какой то список и поместил скрытые символы указателя, но нигде не могу найти как в ворде их отобразить чтобы удалить, может кто сталкивался, подскажите пожалуйста

Post's attachments

AbstracZZZZ.docx 19.03 Кб, 1 скачиваний с 2018-04-06 

You don't have the permssions to download the attachments of this post.

2

Re: При экспорте текста на английском языке в .txt добавляются русские сло

Kristo4 пишет:

Здравствуйте,Есть отрывок текста на английаском языке в *.doc при экспорте в txt выявляются какието посторонние русские слова, я предполагаю, что автор составлял какой то список и поместил скрытые символы указателя, но нигде не могу найти как в ворде их отобразить чтобы удалить, может кто сталкивался, подскажите пожалуйста

Да, странный случай. Такое впечатление, что русские слова изначально в документе были, но набраны в другой языковой раскладке (отчего не отображались). Теперь, после применения к тексту, напр., стиля с курсивным текстом (когда стиль основан на Default Paragraph Font) русские слова

3

Re: При экспорте текста на английском языке в .txt добавляются русские сло

Kristo4 пишет:

Здравствуйте,
Есть отрывок текста на английаском языке в *.doc при экспорте в txt выявляются какието посторонние русские слова, я предполагаю, что автор составлял какой то список и поместил скрытые символы указателя, но нигде не могу найти как в ворде их отобразить чтобы удалить, может кто сталкивался, подскажите пожалуйста

(Что - то опять не срослось при отправке сообщения, при первом ответе текст был обрезан движком формума)

Да, странный случай. Такое впечатление, что русские слова изначально в документе были, но набраны в другой языковой раскладке (отчего не отображались). Теперь, после применения к тексту, напр., стиля с курсивным текстом (когда стиль основан на Default Paragraph Font) русские слова "вылазят". Возможно, текст был обработан каким-либо антиплагиатным кривым инструментом.
Я предлагаю попробовать применить макрос DeleteRussianWords, приведенный ниже. В процессе работы он вызывает функцию проверки очередного слова (IsRussiaWord)? и если слово русское, то оно удаляется. Вычистка выполняется с конца документа к началу. После вычистки понадобится заменить комбинации из нескольких пробелов (в том числе, "жестких" пробелов) на одиночный пробел.

Sub DeleteRussianWords()
Dim wd As Object
Dim iwd As Long
Dim wdt As String
For iwd = ActiveDocument.Words.count To 1 Step -1
    Set wd = ActiveDocument.Words(iwd)
    wdt = Trim$(wd.Text)
    If IsRussianWord(wdt) Then
        wd.Delete
    End If
Next iwd
End Sub

Function IsRussianWord(wd As String) As Boolean
'Проверяет, состоит ли слово только из русских букв
Dim ruabc As String
Dim wdu As String
Dim cnext As String
Dim ic As Integer
Dim irw As Boolean
irw = False
ruabc = "АБВГДЕЁЖЗИЙКЛМНОПРСТУФХЦЧШЩЬЫЪЭЮЯ"
wdu = UCase(wd)
For ic = 1 To Len(wdu)
    cnext = Mid$(wdu, ic, 1)
    If Not (InStr(ruabc, cnext) > 0) Then
        GoTo e_IRW
    End If
Next ic
irw = True
e_IRW:
IsRussianWord = irw
End Function

4

Re: При экспорте текста на английском языке в .txt добавляются русские сло

yshindin пишет:

. . .
Такое впечатление, что русские слова изначально в документе были, но набраны в другой языковой раскладке (отчего не отображались).
. . .

Посмотрел еще текст: если файл .docx переименовать в .zip и посмотреть внутренности файла word\document.xml, то все русские слова видны. Чтобы в тексте их было видно, нужно выделить пропуск между напр., словами "sprache one of the" и "very complicated" и нажать Ctrl+Space - появится слово "время". Если же не нажимать эти клавиши, а просмотреть свойство шоифта выделенного промежутка, то можно увидеть, что у этого текста атрибуты Scale=1%; Condensed=50pt. Этого достаточно, чтобы такой текст был невидим. В целом, создается впечатление искусственно обработанного текста (как, напр., я уже предположил, в целях защиты от антиплагиатного анализа.

5

Re: При экспорте текста на английском языке в .txt добавляются русские сло

спасибо за ответ, но, оказывается там не только русские слова "мусорные" а еще и иностранные какие то не относящиеся к тексту статьи, все они вылазиют если просто сбросить форматирование, так что макрос не подходит, я так и не выяснил что это за мусор, пришлось вручную удалять.