Python-操作.doc后缀的word文件

说明

.doc格式的word文档比较老,python中没有库读写 .doc

需要一个系统工具的库(本文使用 win32com)来打开word应用,将 .doc 另存为 .docx,再使用 python-docx进行读写

安装

python -m pip install pypiwin32

代码

import docx
import win32com.client as wc

#doc文件另存为docx
word = wc.Dispatch("Word.Application")
doc = word.Documents.Open(r"F:\\1.doc")
#上面的地方只能使用完整绝对地址,相对地址找不到文件,且,只能用“\\”,不能用“/”,哪怕加了 r 也不行,涉及到将反斜杠看成转义字符。
doc.SaveAs(r"F:\\1.docx", 12, False, "", True, "", False, False, False, False)#转换后的文件,12代表转换后为docx文件
#doc.SaveAs(r"F:\\***\\***\\appendDoc\\***.docx", 12)#或直接简写
#注意SaveAs会打开保存后的文件,有时可能看不到,但后台一定是打开的
doc.Close
word.Quit

path = "appendDoc/***.docx"
file = docx.Document(path)
for p in file.paragraphs:
    print(p.text)

参考:

https://blog.csdn.net/weixin_39643135/article/details/91348983
https://blog.csdn.net/SeizeeveryDay/article/details/114696487


原文出处:https://malaoshi.top/show_1IX6BbcFvpjs.html