|
写一个爬虫在网易云课堂(https://study.163.com) 里面并抓取300条课程信息,并进行保存以下是一个使用Python编写的简单爬虫示例,用于在网易云课堂上抓取300条课程信息并保存到文件中。请确保安装了Python和相关的库(如requests和BeautifulSoup)。
import requests
from bs4 import BeautifulSoup
def scrape_courses():
url = "https://study.163.com"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
courses = []
course_count = 0
# 获取课程信息
course_elements = soup.find_all("div", class_="m-course-card")
for course_element in course_elements:
if course_count >= 300:
break
course_title = course_element.find("h3", class_="card-name").text.strip()
course_price = course_element.find("span", class_="normal-price").text.strip()
course = {
"title": course_title,
"price": course_price
}
courses.append(course)
course_count += 1
return courses
def save_courses(courses):
with open("courses.txt", "w", encoding="utf-8") as file:
for course in courses:
file.write(f"课程名称: {course['title']}\n")
file.write(f"价格: {course['price']}\n")
file.write("\n")
# 执行爬虫并保存课程信息
courses = scrape_courses()
save_courses(courses)
这个爬虫使用requests库发送HTTP请求获取网页内容,并使用BeautifulSoup库解析HTML。它会抓取网易云课堂主页上的课程信息,最多抓取300条课程。抓取的课程信息包括课程名称和价格,并保存到一个名为 courses.txt 的文本文件中。
请注意,网站的结构和内容可能会变化,如果网易云课堂的页面结构发生变化,可能需要调整代码以适应新的页面结构。此外,请遵守网站的使用条款和条件,确保您的爬虫行为合法且不会对网站造成过大的负担。
|
|