下载报错的问题

报错

1
forbidden 403

解决方案

  1. 手动下载正确的安装包

https://ndownloader.figshare.com/files/5975967

  1. 在我的电脑
    C:\Users(你的 user_name)\scikit_learn_data\20news_home 目录下,将下载好的压缩包拖进去(如果之前没有的需要自己手动创建)
  2. python 下载的文件叫20new-sbydate.tar.gz,自己下载的叫20newsbydate.tar.gz,所以需要改文件名字;

machine1.png (632×159) (wuzhentao.com)

改成->

machine1.png (632×159) (wuzhentao.com)

中间的-一定看清楚!!!

  1. 通过 D:你的项目下\venv\Lib\site-packages\sklearn\datasets找到其中的 twenty_newsgroups.py,打开进行如下的修改

python

如果用本机python就找 python 的安装目录

打开文件位置

machine1.png (632×159) (wuzhentao.com)

这里打开的只是快捷方式, 再从快捷方式找到实际文件位置

machine1.png (632×159) (wuzhentao.com)

再按流程来

jupyter

如果用的jupyter

machine1.png (632×159) (wuzhentao.com)

之后流程和python一样

修改文件

查找twenty_newsgroups.py, 文件有多个需要仔细看

machine1.png (632×159) (wuzhentao.com)

找到download_20newsgroups函数

注释掉logger.info("Downloading dataset from %s (14 MB)", ARCHIVE.url)#os.remove(archive_path)的五句话

machine1.png (632×159) (wuzhentao.com)

再添加

1
2
3
4
archive_path = "C:/Users/(你的用户名)/scikit_learn_data/20news_home/20news-bydate.tar.gz"
logger.debug("Decompressing %s", archive_path)
tarfile.open(archive_path, "r:gz").extractall(path=target_dir)
os.remove(archive_path)

注意:archive_path 是刚才放那个压缩包的路径

至此,便可以再次运行程序,可以成功运行
压缩文件变成了

machine1.png (632×159) (wuzhentao.com)

发现没有报错

machine1.png (632×159) (wuzhentao.com)