xdoc2txt - конвертор PDF, Word, Excel, RTF в текст из различных документов, таких как Ichitaro |
ВНИМАНИЕ! Использован машинный перевод с японского ибо в ином виде описание найти не удалось. Посему и стилистические огрехи, ну а в основном (кроме лицензионной части) выполнено техническое редактирование текста.
xdoc2txt
Обзор
xdoc2txt это универсальный конвертер для извлечения текстовых элементов из различных форматов документов таких как PDF, Word, Excel, Ichitaro работающий из командной строки Windows.- xdoc2txt анализирует структуру различных документов самостоятельно не используя такие программы как WORD или Acrobat.
- Он быстро работает что делает его идеальным для фильтров движков полнотекстового поиска.
- Поддерживаются следующие форматы документов:
.rtf | Форматированный текст (Microsoft RTF) |
.docx | Microsoft Word 2007/2010/2013 (OOXML) |
.xlsx | Microsoft Excel 2007/2010/2013 (OOXML) |
.pptx | Microsoft PowerPoint 2007/2010/2013 (OOXML) |
.doc | Microsoft Word ver5.0 / 95/97/2000 / XP / 2003 |
.xls | Microsoft Excel ver5.0 / 95/97/2000 / XP / 2003 |
.ppt | Microsoft PowerPoint 97/2000 / XP / 2003 |
.sxw / .sxc / .sxi / .sxd | OpenOffice.org |
.odt / .ods / .odp / .odg | Open Document v1.2 |
.jaw / JTW | Ichitaro v5 |
.jbw / juw | Ichitaro v6 |
.jfw / Jvw | Ichitaro v7 |
.jtd / JTT | Ichitaro ver8/9/10/11/12 |
.oas / ОА2 / ОА3 | OASYS / Win |
.bun | New Pine / Pine 5 / Pine 6 |
.wj2 / wj3 / WK3 / WK4 / 123 | Lotus 123 |
.wri | Windows3.1 Write |
Adobe PDF | |
.mht | Веб-архив |
.html | W3C HTML |
EML | Формат экспорта OutlookExpress |
Начиная с v2.0 поддерживаются Ifilter так что если формат документа не поддерживается xdoc2txt, вы можете извлечь текст если есть соответствующий Ifilter.(функция доступна только в EXE версии)
Для EXE / DLL версии COM-компонента возможности по извлечению текста аналогичны.
Операционная система:
xdoc2txt работает в следующими ОС.
вер | Операционная система |
---|---|
ver1.x (MBCS) | Windows 95/98 / ME / NT 4.0 / 2000 / XP / Vista / Windows 7 (32bit / 64bit) / Windows 8 (32bit / 64bit) / Server 2003 / Windows Server 2008 R2 (64-разрядная) / Windows Server 2012 (64-разрядная) / Windows Server 2012 R2 (64-разрядная) |
ver2.x (Unicode) | 2000 / XP / Vista / Windows 7 (32bit / 64bit) / Windows 8 (32bit / 64bit) / Server 2003 / Windows Server 2008 R2 (64-разрядная) / Windows Server 2012 (64-разрядная) / Windows Server 2012 R2 (64-разрядная) |
-
Для v2.0, требуется установка общих
библиотек времени исполнения (для Vista и новее обычно не нужно)
Xdoc2txt 32bit (x86) версия требуется 32/64 битная редакция ОС и
Microsoft Visual C++ 2010 Redistributable Package (x86)Для работы xdoc2txt 64bit (x64) версии требуется 64 битная редакция ОС и
Microsoft Visual C++ 2010 Redistributable Package (x64)Если ОС выводит сообщение о невозможности запуска xdoc2txt из-за ошибок в конфигурации приложения, то скачайте и установите Microsoft Visual C++ 2010 Redistributable Package (runtime) с сайта Microsoft.
Авторское право и условия использования
- xdoc2txt быть свободно использован для некоммерческих и личных целей, в том числе в некоммерческих общественных организациях
-
Для любого коммерческого использования xdoc2txt
необходимо приобрести лицензию для чего обращайтесь к автору.
xdoc2txt коммерческой лицензии (24 мая, издание 2007 г.)
- Xdoc2txt, что входит в Hyper Estraier, если вы хотите распространять с Hyper Estraier, он будет исключен из коммерческой лицензии.
-
Если вы хотите, чтобы перераспределение xdoc2txt,
спасибо вам всегда принимать разрешение распределения автору.
В случае свободного программного обеспечения, это не позволит
принцип распределения.
Если вы хотите, чтобы перераспределить xdoc2txt, пожалуйста распространяться без изменения весь файл, включенный в пакет. Также, пожалуйста, указать, где пользователь известен руководства, такие, как то, что вы с помощью xdoc2txt.
Следует отметить, что если программное обеспечение спецификации, которые могут включать xdoc2txt в качестве внешнего фильтра (если вы используете отдельный xdoc2txt, что вы скачали), свяжитесь с автором абсолютно ненужным. - xdoc2txt и авторских прав и сопроводительная документация являются собственностью их hishida.
- xdoc2txt предоставляется как есть без гарантии. любые убытки, возникающие из использования или неиспользования xdoc2txt (в отношении упущенной выгоды, прерывания бизнеса, в том числе других денежных убытков и потери деловой информации), автор не несет никакой ответственности.
- Почта и включение журнала Software, чтобы позволить перепечатка в Интернете. Если он будет опубликован, пожалуйста, свяжитесь с нами для журнала публикации до автора, потому что это прекрасно в докладе сообщению.
Параметры командой строки
xdoc2txt.exe [опции ..] <имя файла ...> |
Как использовать
-
Следующий пример, пишет текст,
включенный в sample.doc документа MS-Word на стандартный вывод.
xdoc2txt sample.doc
xdoc2txt sample.doc> sample.txt
xdoc2txt -f sample.doc sample.xls
xdoc2txt -f *.xls
xdoc2txt -p руководство .doc Результат выполнения:
<Title> KWIC Finder руководство </Title>
<Autor> hishida </ Autor>
<Template> Normal.dot </Template>
<LastAuthor> hishida </LastAuthor>
<RevisionNumber> 1 </RevisionNumber>
<AppName> Microsoft Word 9.0 </AppName>
<Lastprinted> 2004/03/23 19:39:00 </Lastprinted>
<Created> 2004/03/23 19:35:00 </Created>
<LastSaved> 2004/03/23 19:44:00 </LastSaved>
<PageCount> 1 </PageCount>
<WordCount> 21 </WordCount>
<CharCount> 121 </CharCount> - Защищённые паролем документы Word / Excel / PowerPoint / Ichitaro не обрабатываются.
Перетаскивание мышью
Создайте ярлык на рабочем столе со следующими свойствами:
- Правая кнопка мыши → [отправить (N)] на xdoc2txt.exe в Проводнике Windows → [Рабочий стол (создать ярлык)
- Право кнопка мыши на иконке, которая была создана на рабочем столе → [Свойства (R)]
-
В конце Target (T)], и добавить -f.
Пример: "C:\Program Files\kwic\xdoc2txt.exe" -f - Если вы перетащите файлы на этот значок, то выходные файлы с расширением .txt будут сохранены в той же директории что и входные.
Ссылка на статью: Http://Www.Forest.Impress.Co.Jp/article/2003/11/19/xdoc2txt.Html .
О Ifilter
- В Ver2.0 или новее поддерживает Ifilter. Если указать опцию -i, Ifilter могут быть использованы для преобразования.
-
Мы проверили следующий Ifilter.
- Ichitaro для IFilter 32-битной ОС
- DocuWorks Content-фильтр
- Microsoft Office Update filter
-
Adobe Reader 9.5 PDF Ifilter
※ Adobe Reader 10 Ifilter вышел после выхода Adobe PDF IFilter v6.0, Adobe PDF IFilter 9 для 64-битных ОС не доступен.
- Ifilter работает только с ЕХЕ сборкой и с другими ( Dll/СОМ) не применим.
Скачать
Ver2.x (Unicode)
Новое! 2017/07/06- xdoc2txt 2.16.1 (xd2tx2161_x64.zip) - x64 (64 бит) версия
- xdoc2txt 2.16.1 (xd2tx2161.zip) x86 (32 бит) версия
Ver1.x (MBCS)
Фильтры
Имя | Лицензия | Применение | URL | Включено |
---|---|---|---|---|
GoogleXdoc
(подключение xdoc2txt к GoogleDeskTop как плагина) |
бесплатно | Полнотекстовый поиск | Soft far | ○ |
Namazu для Win32 | бесплатно | Полнотекстовый поиск |
Образец
фильтрации документа с использованием xdoc2txt (Mr. by
a.hanai)
Система полнотекстового поиска Namazu для Win32 |
|
Hyper Estraier | бесплатно | Полнотекстовый поиск | http://hyperestraier.sourceforge.net/ | ○ |
Meadow2 | бесплатно | Редактор | Meadow memo Wiki | ○ |
MiGrep | бесплатно | Поиск | M & I page of | |
VxEditor | бесплатно | Редактор | X-Labo WebPage | ○ |
smoopy | бесплатно | Просмотр вертикального текста | http://www.vector.co.jp/soft/win95/util/se263229.html | |
Transwise | бесплатно | Поддержка перевода | http://www6.ocn.ne.jp/~vmel/software/Transwise/Transwise.htm | |
EBView | бесплатно | Словарь текстовый поиск | http://ebview.sourceforge.net/ | |
Search Cross | Продукт | Полнотекстовый поиск | Village Center Co., Ltd. | |
KOA Direct Server | бесплатно (с ограничениями) | Система обмена данными | KOA Project | ○ |
HNXgrep | бесплатно | Поиск с помощью Grep | http://www.vector.co.jp/soft/winnt/util/se494966.html |
* Известные автору программы использующие xdoc2txt в качестве фильтра.
История
Ver2.x (Unicode)
2.16.1 | 2017/07/06 |
|
2.16.1 | 2016/06/28 |
|
2.16 | 2016/04/26 |
|
2.15 | 2016/04/07 |
|
2.14 | 2015/11/19 |
|
2.13 | 2015/8/25 |
|
2.12 | 2015/7/18 |
|
2.11 | 2015/5/29 |
|
2.10 | 2015/4/15 |
|
2.09 | 2015/4/09 |
|
2.08 | 2015/3/11 |
|
2.07 | 2014/10/28 |
|
2.06 | 2014/10/09 |
|
2.05 | 2014/08/31 |
|
2.04 | 2014/07/29 |
|
2.03 | 2014/07/16 |
|
2.02 | 2014/06/14 |
|
2.02 | 2014/05/04 |
|
2.01 | 2014/02/16 |
|
2.00 | 2013/01/23 |
|
2.00β4 | 2012/12/28 |
|
2.00β3 | 2012/12/24 |
|
2.00β2 | 2012/12/19 |
|
2.00β1 | 2012/12/01 |
|
2.00β0 | 2012/11/26 |
|
2.00α3 | 2012/11/17 |
|
2.00α2 | 2012/11/15 |
|
2.00α1 | 2012/11/14 |
|
2.00α0 | 2012/11/13 |
|
Ver1.x (MBCS версия)
Разработка MBCS версии 1.x закончена. Пожалуйста, используйте v2.x.
1.52 | 2015/11/19 |
|
1.51 | 2015/08/25 |
|
1,50 | 2014/10/28 |
|
1.49 | 2014/10/09 |
|
1.48 | 2014/05/04 |
|
1,47 | 2013/11/30 |
|
1.46 | 2012/12/24 |
|
1.45 | 2012/11/26 |
|
1.44 | 2012/11/17 |
|
1.43 | 2012/10/17 |
|
1.42 | 2012/05/17 |
|
1.41 | 2011/07/30 |
|
1.40 | 17, 2011 |
|
1.39 | 2011/04/28 |
|
1.38 | 2010/12/21 |
|
1.37 | 2010/05/16 |
|
1.36 | 2010/01/09 |
|
1.35 | 2009/08/28 |
|
1.34 | 2009/06/22 |
|
1.33 | 2009/06/07 |
|
1.32 | 2008/12/01 |
|
1.31 | Ноябрь 2008 |
|
1.30 R2 | 2008/08/18 |
|
1.30 | 2008/05/22 |
|
1.29 | 2008/05/18 |
|
1,28 | 2008/03/18 | |
1.27 | 2008/01/24 |
|
1.26a | 2007/10/21 |
|
1.26 | 2007/05/11 |
|
1.25 | 2007/04/13 |
|
1.24 | 2007/02/18 |
|
1.23 | 2006/08/29 |
|
1.22 | 2006/05/28 |
|
- | 2006/05/10 |
|
1.21 | 2006/05/08 |
|
1.20 | 2006/02/17 |
|
1.19 | 2006/02/08 |
|
1.18 | 2006/02/04 |
|
1.17 | 2005/09/19 |
|
1.16 | 2005/05/02 |
|
1.15 | 2005/04/23 |
|
1.14 | 2005/01/31 |
|
1.13 | 2004/05/30 |
|
1.12 | 2004/05/05 |
|
1.11 | 2004/04/04 |
|
1.10 | 2004/03/13 |
|
1.09 | 2004/02/25 |
|
1.08 | 2004/01/28 |
|
1.07 | 2004/01/26 |
|
- | 2004/01/18 |
|
1.06 | 2003/11/09 |
|
1.05 | 2003/07/15 | |
1.04 | 2003/03/26 |
|
1.03 | 2002/11/23 |
|
1.02 | 2002/10/18 |
|
1.01 | 2002/9/9 |
|
1.00 | 2002/7/8 |
|
© 2002-2012 hishida