Word模块安装与介绍 Python读取Word文档内容

鳄鱼君Ba

发表文章数:514

Vieu四代商业主题

高扩展、安全、稳定、响应式布局多功能模板。

¥69 现在购买
首页 » Python教程 » Word模块安装与介绍 Python读取Word文档内容

python-docx模块

python-docx模块可以创建、修改Wrod(.docx)文件,需要单独安装,不属于Python的标准模块。官方网站:https://python-docx.readthedocs.io/en/latest/

安装方式为pip命令安装:pip install python-docx或者在pycharm的setting里面安装!

Word文档结构

Document:文档,Paragraph:段落,Run:文字块。一段内容用Paragraph表示,在Paragraph段落中,Run文字块通过逗号分割。

python-docx提取文字

doc.paragraphs得到一个列表,包含了每个段落实例,使用paragraph.text获取该段落的文字内容:

from docx import Document
doc=Document('文档.docx')
print(doc.paragraphs)
for paragraph in doc.paragraphs:
    print(paragraph.text)

paragraph.runs可以得到一个列表,包含了每个文字块

from docx import Document
doc=Document('文档.docx')
paragraph=doc.paragraphs[1]
runs=paragraph.runs
print(runs)
for run in paragraph.runs:
    print(run.text)

未经允许不得转载:作者:鳄鱼君Ba, 转载或复制请以 超链接形式 并注明出处 鳄鱼君Ba
原文地址:《Word模块安装与介绍 Python读取Word文档内容》 发布于2020-05-17

分享到:
赞(0) 赏杯咖啡

评论 抢沙发

2 + 7 =


文章对你有帮助可赏作者一杯咖啡

支付宝扫一扫打赏

微信扫一扫打赏

Vieu4.6主题
专业打造轻量级个人企业风格博客主题!专注于前端开发,全站响应式布局自适应模板。
切换注册

登录

忘记密码 ?

您也可以使用第三方帐号快捷登录

Q Q 登 录
微 博 登 录
切换登录

注册