Статьи из блога

Статьи из блога

Как преобразовать документ Word (*.doc) в формат HTML

Стандартные средства преобразования документов Word в формат HTML позволяют достаточно легко создавать Web-странички. Однако здесь есть и большой минус: в файл записывается очень много совершенно ненужной информации.

шзбавиться от этого и получить на выходе более легкий и правильный HTML-файл можно с помощью настроек Word и/или специальных программ.

 

С помощью функций редактора Word:

  1. Зайдите в меню Сервис и выберите команду Параметры. В диалоговом окне перейдите на вкладку Общие.
  2. Кликните на кнопку Параметры веб-документа. Откроется одноименное диалоговое окно, в котором на вкладке Обозреватели нужно выбрать браузер самой младшей версии, а в окне Параметры снять все галочки. Нажмите ОК и закройте диалоговые окна.
  3. При сохранении документа Word выберите команду Сохранить как веб-страницу и в поле Тип файла выберите формат Веб-страница с фильтром (*.htm, *.html).

Тем, у кого установлен Word 2000, на сайте Microsoft.com можно скачать HTML-фильтр - инструмент для удаления тегов разметки Office из документов Office 2000, сохраненных в формате HTML.

 

Однако, получившийся файл все равно будет еще содержать массу тегов, стилей. Здесь на помощь придут специализированные программы.

 

Во-первых, это рекомендованный Microsoft пакет макросов Перестройка 2000/2002. Можно скачать пакет применительно к используемой вами версии редактора Word. В этот пакет макросов входит и конвертор документов Word в HTML. Более подробно об этой программе я ничего сказать не могу, поскольку автор сразу предупреждает о том, что в Word 2003 этот пакет работать не будет. А пробовать и устанавливать весь пакет ради одной единственной функции я не посчитал нужным. Если кто-то тестировал этот пакет макросов, то прошу высказаться в комментариях или в письме.

 

Во-вторых, есть интересная утилита - WordCleaner от ирландской компании Zapadoo. С ее помощью можно достаточно быстро преобразовать одиночный документ или целую группу документов Word в HTML-файлы с более-менее чистым кодом.

 

Конвертация *.doc в HTML

 

Причем, утилита конвертирует в HTML не только "вордовские" *.doc-файлы, но может также преобразовывать rtf-файлы и txt-файлы, а также очищать уже переконвертированные html-файлы.

Для новичков предусмотрен пошаговый режим конврертирования, так называемый Wizard.

Утилита встраивается в контекстное меню, вызываемое щелчком по файлу правой кнопкой мыши, а также создает свою панель и помещает ее в Word.

 

Я протестировал эту программу на нескольких файлах и могу подтвердить хороший результат ее работы. Правда, мне показалось, что с таблицами она не очень хорошо справляется, а в целом ее можно только порекомендовать тем, кому частенько требуется осуществлять подобные конвертирования.

 

Отлично распознала таблицы и очистила файл от тонны мусора из лишних тегов третья программка, которую я хочу порекомендовать - HTML Cleaner.

 

Конвертация *.doc в HTML

 

Программа написана на языке Java, и исполняемый файл имеет расширение .jar. Для работы программы необходимо, чтобы на компьютере был установлен Java Run-time Environment (Java 2 RTE), версии не меньше 1.4.

 

Работает утилитка очень просто: достаточно нажать кнопку Select и выбрать нужный файл (в формате HTM, HTML) для преобразования. То есть, файл уже должен быть ранее преобразован в HTML-формат из Word-a. На выходе получается очень компактный и чистый html-код.

 

Если вы знаете какие-нибудь другие полезные утилиты или сервисы конвертирования документов Word в формат HTML, то прошу вас поделиться своими знаниями и впечатлениями.

twitter.com facebook.com vkontakte.ru odnoklassniki.ru mail.ru ya.ru rutvit.ru myspace.com technorati.com digg.com friendfeed.com pikabu.ru blogger.com liveinternet.ru livejournal.ru memori.ru google.com bobrdobr.ru mister-wong.ru yahoo.com yandex.ru del.icio.us

Комментариев: 25

  1. isf
    17.10.2006 в 03:58 | #1

    был гдето онлайн сервис по преобразованию док в штмл

  2. 17.10.2006 в 11:24 | #2

    Есть такой сервис - через почтовый сервис Gmail.

    Вот статья Андрея Крупина в Компьютерре: http://www.computerra.ru/gid/rtfm/internet/244268/

    Конвертирует документы следующих форматов: pdf, doc, xls, ppt, rtf, sxw, sxc, sxi, sdw, sdc, sdd, и wml.

  3. Craigy
    12.12.2006 в 13:48 | #3

    Есть еще вариант воспользоваться редактором Macromedia DreamWeaver. В нем есть специальная функция Commands -> Clean-up Word HTML.

  4. KIVagant
    15.08.2007 в 16:50 | #4

    Облазил весь интернет, и нигде не нашел утилитки, которая бы не тупо конвертировала из формата в формат, а разрезала DOC по заголовкам разных уровней, формируя отдельные html-файлы. Капец. :(

  5. 16.08.2007 в 10:39 | #5

    KIVagant, я на работе пользуюсь шаблоном WordToWeb (http://www.businesssite.ru/content.php?id=5). Она действительно выделяет все заголовки (3 уровня) и создает чистый HTML-файл.

  6. k0z
    04.04.2008 в 13:00 | #6

    А для php есть что-нибудь?

  7. Александр
    07.05.2008 в 16:01 | #7

    Последняя прога - это лучшее, что я когда либо видел.

    Что касается gmail сервиса, дык там куча мусора остается так или иначе.

  8. petnicol
    14.12.2008 в 19:29 | #8

    Теряются рисунки при преобразовании Ворд-текста в формат html. В ходе преобразования рисунки выделяются в файл (*.file) и редактор уже не может их вставить в Веб-текст. Что делать?

  9. Татьяна
    15.01.2009 в 16:16 | #9

    Здравствуйте.У меня не печатает документ

    Microsoft Vord.

    При открытии программы появляется окно - введите ключ продукта,но эту установку можно и отменить.

    Печатать в документе невозможно сразу внизу выделяется:

    -Такое изменение запрещено,поскольку выделенный фрагмент заблокирован.

    Посоветуйте пожалуйста,что делать в таком случае,и как снять блокировку в данном документе?

  10. 15.01.2009 в 16:54 | #10

    Татьяна, я вижу один выход: зарегистрировать вашу версию офиса. Купить лицензию. Второй вариант (пользоваться пиратской версией) не рассматривается здесь и все подобные советы будут удалены.

  11. оля
    29.05.2009 в 05:13 | #11

    помогите пожалуйста, я заблокировала текст в ворде от форматирования и изменений, а теперь мне надо его изменить, как снять блок как там пишут готового документа. читать я его могу но не могу изменять ошибки. заранее спасибо

  12. 29.05.2009 в 06:14 | #12

    Ольга, если у вас Word 2003, то в меню Сервис выберите команду "Снять защиту". Откроется область задач справа, где вы должны нажать кнопку "Отключить защиту".

    Да, и если вы вводили пароль на защиту, то придется вспомнить его.

  13. Анастасия
    13.07.2009 в 08:37 | #13

    Спасибо, последняя малюсенькая программа творит чудеса. Боялась, что все придется руками редактировать и удалять, но она делает все сама:). Еще раз спасибо за обзор.

  14. Алексей
    06.06.2010 в 10:49 | #14

    Большое спасибо за программу для очистки hmtl!

  15. dimadav
    22.07.2010 в 16:44 | #15

    очень интересная статья, меня интересует конвертация одного большого файла doc или txt с автоматической разбивкой на несколько html файлов с параметрами, например количество символов или по заголовкам

  16. 24.07.2010 в 18:45 | #16

    dimadav, задание очень расплывчатое. Если вы готовы его уточнить, то я мог бы взяться за его выполнение за оплату. Также вы можете разместить заявку в соответствующем разделе нашего форума

  17. ixaa
    28.12.2010 в 15:20 | #17

    Я скачал PDF-файл и у меня появился этот же файл с расширением .htm .Он не читается ни на браузере,ни на Word.

    Подскажите пож как преобразовать его снова в pdf или .docx или в любой другой читабельный формат для текста.Заранее спасибо.

  18. 29.12.2010 в 09:03 | #18

    Как вы скачивали данный файл? Такое возможно, если кликнуть правой кнопкой мыши по ссылке и скачать. Но как правило, по ссылке идет шифрованный адрес для файла, поэтому такой способ и приводит к тому, что скачивается лишь страничка, а не сам файл.

  19. 14.09.2011 в 12:13 | #19

    Всем привет, подскажите как в Ворде 2007 заблокировать изображение от правки. Чтобы др получатель мог вносить свои изменения везде кроме изображений?

  20. Николай
    17.12.2011 в 13:04 | #20

    Подскажите как Word 2007 перевести в HTML в самом редакторе.

  21. marat
    08.01.2012 в 18:48 | #21

    последняя программа с настройками utf8 очень плохо очищает мусор даже тегов становиться больше чем с word

  22. МАрия
    16.12.2012 в 14:58 | #22

    Отправила письмо через гугл, но при открытии картинок не видно, только текст((

  23. Олюся
    26.11.2013 в 16:37 | #23

    Html - это хорошо, но что вы можете посоветовать для BB-кодов?

    Т.к. я пишу много статей на форумах, мне удобнее сначала их набирать в Word, а затем нажать "волшебную кнопочку" и получить текст с BB-кодами.

    [b]Жирный[/b]
    [i]Курсив[/i]
    [u]Подчёркнутый[/u]
    [s]Зачёркнутый[/s]
    [color=red]Красный[/color]
    [color=blue]Синий[/color]
    [color=green]Зелёный[/color]

    Раньше у меня когда такое было, но с тех пор уже не единожды была перезалита Винда полностью, замене винчестер, а вместе с ними и пакет MS Office.

    У меня было первый раз как-то вызываемое сочетанием клавиш (по-моему, Alt+F5 или Alt+F9), а второй раз - я устанавливала макрос, но его работа меня не устраивала.

    Теперь мне это опять надо позарез. Можете ли вы мне помочь? Или вы специализируетесь только на Html?

  24. Жанызак
    01.02.2014 в 05:44 | #24

    Сверхпростейший способ превращения только ТЕКСТА ворд в штмл:

    найти:

    ^p

    заменить:

    Пояснение:

    ^p - знак абзаца в Ворде;

    - перевод строки в Штмл.

  25. Руслан
    18.08.2014 в 14:34 | #25

    Как быть, если в моём собственном ноутбуке, я хочу удалить документ, или файл, и он при этом требует от меня права администратора. Какие права и как я должен получить у администратора, если это мой собственный домашний ноутбук?

Оставьте комментарий!

(обязательно)

^ Наверх