好的,首先你需要安装Python的docx库和PyPDF2库,可以通过以下命令进行安装:
```
pip install python-docx PyPDF2
```
接下来,你可以使用以下代码实现遍历某
文件夹下所有pdf文档,
找到pdf文档
中包含
关键字的文件名称、页码,并将结果写入
word文档。
```python
im
port os
im
port re
im
port docx
im
port PyPDF2
# 定义需要遍历的
文件夹路径和
关键字
folder_path = r"C:UsersAdministratordocu
mentspdf"
key
word = "Python"
# 新建一个
word文档
doc = docx.docu
ment()
doc.add_heading("PDF文档
中包含
关键字的页面", 0)
# 遍历
文件夹中的所有pdf文档
for root, dirs, files in os.walk(folder_path):
for file in files:
if file.endswith(".pdf"):
# 读取pdf文档
内容
pdf_file = open(os.path.join(root, file), "rb")
pdf_reader = PyPDF2.PdfFileReader(pdf_file)
# 遍历pdf文档
中的所有页面,查
找关键字
for page_num in range(pdf_reader.getNumPages()):
page = pdf_reader.getPage(page_num)
text = page.extractText()
# 如果页面
中包含
关键字,将结果写入
word文档
if re.search(key
word, text, re.IGNORECASE):
doc.add_paragraph("文件名:{}".format(file))
doc.add_paragraph("页码:{}".format(page_num + 1))
doc.add_paragraph("
内容:{}".format(text))
doc.add_paragraph("")
# 将结果保存到
word文档
doc.save("result.docx")
```