為 PDF、Office 檔案產生文字索引

遇到文件檔全文檢索需求，打算用 SQL Server 全文檢索或 lucent.net實現，無論使用何者都免不了從 Word、Excel、PowerPoint 或 PDF 檔萃取純文字內容建立索引的程序。經簡單評估，使用微軟的 IFilter 介面應是較簡單可行的做法。搜索引擎面對的檔案種類五花八門，不太可能涵蓋各種檔案格式，知道從中取出文字內容的方法，IFilter 制定統一程式介面，不管檔案格式為何，只要廠商或第三方有提供專屬 IFilter，搜尋引擎便可使用呼叫統一的 API 方法傳入檔案名稱取得文字內容，再為文字建立索引方便日後查詢。

專案面臨的檔案種類還算單純，只需涵蓋 Office 文件及 PDF 檔，而二者都有現成的 IFilter 可用:

PDF iFilter 64 下載
Office 2010 Filter Packs 下載
包含 Legacy Office Filter (97-2003; .doc, .ppt, .xls)、Metro Office Filter (2007; .docx, .pptx, .xlsx) 、Zip Filter、
OneNote filter、Visio Filter、Publisher Filter、Open Document Format Filter
有 32/64 版本可選擇，由於 PDF iFilter 為 64，建議 Office Filter 也裝 64bit

簡單如何說明由 Registry 找出副檔名對應 IFilter 的原理。首先在 NTLM\SOFTWARE\Classes\.副檔名可以找到 PersistentHandler 機碼，預設值指向一個 GUID:

在 NTLM\SOFTWARE\Classes\CLSID\{PersistentHandler GUID}\PersistentAddinsRegistered 可以找到名稱是 GUID 的機碼，預設值再指向另一個 GUID:

繼續在 CLSID 找尋該 GUID，InprocSever32 預設值即指向其 IFilter DLL: (下圖以 PDF iFilter 11 為例)

同理，我們也能找到 Office Filter 的實際位置:

上述的 Registry 大地遊戲過程有點繁瑣，加上爬文發現 PDF iFilter 有些眉角要克服，我找到網友寫好的懶人包元件(參考: Adobe PDF IFilter 11 - My Technical Diary)，經實測只需幾行程式可通吃 Office/PDF，方便許多。

為了測試，我準備了doc, docx, ppt, pptx, xls, xlsx, pdf 七種檔案，內容都只有單純一行"XXXX測試"字樣。

程式如下:

        [STAThread]

staticvoid Main(string[] args)

            List<string> names =

"測試.pdf,測試.docx,測試.doc,測試.xlsx,測試.xls,測試.pptx,測試.ppt"

                .Split(',').ToList();

            names.ForEach(f =>

                Console.WriteLine($"[{f}]");

using (var reader =

new EPocalipse.IFilter.FilterReader($"e:\\tests\\{f}"))

string text = reader.ReadToEnd();

                    Console.WriteLine(text);

});

            Console.Read();

測試成功!

為 PDF、Office 檔案產生文字索引

Trending Articles

[奇怪机翻组] 双梦相牵 / ふたりの夢もち [RJ01259078] [WebRip] [1080P HEVC-10Bit AAC 2.0]...

HONDA CITY VTI-S 菜單分享

#新闻拍一拍# 新的摩尔定律：黄氏定律

一如既往的痴情能否打动月瓶金蝎？ (豆瓣月亮水瓶小组)

求購按摩椅~'~

「粉红」不是霸凌辜莞允杠部落客：我爽在哪？

Intel 7-10代集成显卡驱动31.0.101.2137完整版

涉Gotbit加密货币市场操纵台男纽约被捕

臺灣法治會計學會2025年第三季研討會

不靠姊姊！張柏芝弟弟開計程車維生

关门一家亲：习远平、张澜澜、徐才厚

剑指offer——24.二叉树中和为某一值的路径

苏珊米勒日晕05.11｜狮子鼓励孩子；处女相信自己 (豆瓣 SUSAN MILLER小组)

【台積電IT卓越新戰略5】台積IT組織5年三次大調整，要靠平臺工程讓DevOps創新再加速

【日语无字】春之钟.Haru.no.kane.1985.JAP.vhsrip.NoSub.by.xiongzaixia&vivi

美籍老公不讓步李愛綺兒子念公立小學

新华网这张照片绝了!直讽江泽民宋祖英淫乱组图

湖州师范学院音乐学院开发的 Kontakt 8 明代魏氏乐琵琶/瑟/月琴音源即将发布

Google Chrome Portable 140.0.7339.186 穩定版免安裝中文版 - Google 瀏覽器

免费翻墙节点大全