各种文件格式转md
LLM最喜欢文档(资料)是md,处理例如word,pdf,excel时非常慢。可以预先把文档转换成md以提高效率
github主页:https://github.com/microsoft/markitdown
安装与使用
# 安装
pip install markitdown
# 从源代码安装
git clone git@github.com:microsoft/markitdown.git
cd markitdown
pip install -e 'packages/markitdown[all]'
# 使用重定向符转换
markitdown path-to-file.pdf > document.md
# 使用参数转换
markitdown path-to-file.pdf -o document.md
# 使用管道转换
cat path-to-file.pdf | markitdown
代码集成
from markitdown import MarkItDown
md = MarkItDown(enable_plugins=False) # Set to True to enable plugins
result = md.convert("test.xlsx")
print(result.text_content)