python解析docx文档word文档方法


安装解析库 pip install python_docx 安装如果因网络原因失败,换国内源 pip install python_docx -i https://pypi.mirrors.ustc.edu.cn/simple/

简单的解析例子

import docx
from docx import Document
path = "C:\\Users\\Administrator\\Desktop\\word.docx"
document = Document(path)
for paragraph in document.paragraphs:
    print(paragraph.text)

暂不支持doc格式的,不过可以做个doc转docx后再处理,转换方法如下

if os.path.splitext(path)[1] == ".doc":
            word = client.Dispatch('Word.Application')
            doc = word.Documents.Open(path)  # 目标路径下的文件
            doc.SaveAs(os.path.splitext(path)[0] + ".docx", 16)  # 转化后路径下的文件
            doc.Close()
            word.Quit()
            os.remove(path)
            return os.path.splitext(path)[0] + ".docx"