跳转到主要内容

各种文件格式转md

LLM最喜欢文档(资料)是md,处理例如word,pdf,excel时非常慢。可以预先把文档转换成md以提高效率

github主页:https://github.com/microsoft/markitdown

安装与使用



# 安装(基础安装)
pip install markitdown

# 全量安装,支持更多的文档格式转换
pip install markitdown[all] -i https://pypi.tuna.tsinghua.edu.cn/simpl

# 从源代码安装
git clone git@github.com:microsoft/markitdown.git
cd markitdown
pip install -e 'packages/markitdown[all]'

# 使用重定向符转换
markitdown path-to-file.pdf > document.md

# 使用参数转换
markitdown path-to-file.pdf -o document.md

# 使用管道转换
cat path-to-file.pdf | markitdown

代码集成


from markitdown import MarkItDown

md = MarkItDown(enable_plugins=False) # Set to True to enable plugins
result = md.convert("test.xlsx")
print(result.text_content)