品索（深圳）智能有限公司-zzxiong博客

机器学习之Python(5)：Python函数从入门到进阶

原创时间:2025-02-26 21:18 作者:管理员浏览量:314

一、引言

在编程的世界里，我们常常会遇到各种各样的实际问题。比如，要处理一个电商平台的订单数据，可能需要统计订单的总金额、计算每个用户的平均消费金额，还要根据不同的促销活动计算订单的折扣价格。又或者在开发一个数据分析项目时，需要从大量的用户行为数据中提取关键信息，如用户的登录时间、浏览页面的时长等。

面对这些复杂的任务，如果每次都重复编写相同的代码片段来完成相似的功能，不仅效率低下，而且代码会变得冗长、难以维护。这时候，Python 函数就如同编程世界里的 “超级助手”，闪亮登场了！

Python 函数可以将一段完成特定功能的代码封装起来，给它取一个名字，以后只需要通过这个名字调用它，就能轻松执行这段代码，而无需重复编写。它就像是一个 “黑匣子”，我们把数据放进去（输入参数），它经过处理后返回我们需要的结果（返回值）。使用 Python 函数，能让代码变得更加简洁、易读、可维护，大大提高编程效率。

二、Python 函数基础概念

2.1 定义函数

在 Python 中，使用def关键字来定义函数。其基本语法如下：

def 函数名(参数列表):
    """函数文档字符串，用于描述函数的功能、参数和返回值等信息"""
    函数体
    return 返回值

函数名：遵循 Python 的命名规则，一般采用小写字母和下划线组合，用于标识这个函数，方便在后续代码中调用。

参数列表：可以包含 0 个或多个参数，参数之间用逗号分隔。这些参数就像是函数的 “输入接口”，在调用函数时传入具体的值，函数会根据这些值进行相应的操作。参数列表可以为空，即函数不需要接收外部传入的数据。

函数体：这是函数的核心部分，包含了一系列实现函数功能的语句。它是缩进的代码块，通过执行这些语句来完成特定的任务。

return 语句：用于返回函数的执行结果。它是可选的，如果函数没有return语句，或者return后面没有跟任何值，函数会默认返回None。返回值可以是任何数据类型，比如整数、字符串、列表、字典等，也可以是一个函数或者一个类的实例。

例如，定义一个计算两个数之和的函数：

def add_numbers(a, b):
    """
    计算两个数的和并返回结果。
    :param a: 第一个数
    :param b: 第二个数
    :return: 两数之和
    """
    result = a + b
    return result

在这个例子中，add_numbers是函数名，a和b是参数，函数体计算了a和b的和并赋值给result，最后通过return语句返回result。

2.2 调用函数

当我们定义好一个函数后，就可以在程序的其他地方调用它。调用函数的语法很简单，只需写出函数名，后面跟着一对括号()，如果函数有参数，就在括号内传入相应的参数值。参数值的顺序和类型要与函数定义时的参数列表一致。例如，调用上面定义的add_numbers函数：

sum_result = add_numbers(3, 5)
print(sum_result)

在这个例子中，add_numbers(3, 5)就是函数调用。我们向add_numbers函数传入了两个参数3和5，函数执行后返回两数之和8，并将这个结果赋值给变量sum_result，最后打印出sum_result的值。

在参数传递的过程中，Python 采用的是 “值传递” 和 “引用传递” 相结合的方式。对于不可变对象（如整数、字符串、元组等），传递的是对象的值的副本，在函数内部对参数的修改不会影响到函数外部的变量；而对于可变对象（如列表、字典等），传递的是对象的引用，在函数内部对参数的修改会影响到函数外部的变量。例如：

def modify_list(lst):
    lst.append(4)
    return lst
my_list = [1, 2, 3]
new_list = modify_list(my_list)
print(new_list)  
print(my_list)

在这个例子中，my_list是一个列表，是可变对象。当我们将my_list作为参数传递给modify_list函数时，函数内部对lst（实际上是my_list的引用）的修改，会直接影响到my_list，所以最后打印my_list时，它的值也变成了[1, 2, 3, 4]。

2.3 函数参数

在 Python 函数中，参数是非常灵活多样的，不同类型的参数可以满足各种不同的编程需求。下面详细介绍几种常见的参数类型。

2.3.1 必选参数

必选参数是函数定义中最基本的参数类型，调用函数时必须按照函数定义的顺序传入这些参数，且参数的数量和类型必须与函数定义时一致。例如：

def greet(name):
    print(f"Hello, {name}!")
greet("Alice")

在这个例子中，name就是必选参数。如果调用greet函数时不传入参数，或者传入的参数数量不对，就会抛出TypeError异常，比如greet()这样的调用就会报错，因为它缺少了必选参数name。

2.3.2 默认参数

默认参数在函数定义时为参数指定一个默认值。当调用函数时，如果没有传入该参数的值，函数就会使用默认值。默认参数的存在使得函数的调用更加灵活和方便，减少了重复传入相同参数的麻烦。例如：

def greet(name, age=18):
    print(f"Hello, {name}! You are {age} years old.")
greet("Bob") 
greet("Charlie", 25)

在这个例子中，age是默认参数，默认值为18。当调用greet("Bob")时，由于没有传入age参数的值，函数会使用默认值18；而调用greet("Charlie", 25)时，传入了age的值为25，函数就会使用传入的值。

需要注意的是，默认参数必须放在必选参数之后，否则会导致语法错误。另外，默认参数的值最好是不可变对象（如数字、字符串、元组等），因为如果默认参数是可变对象（如列表、字典），在函数多次调用时可能会出现意外的结果。例如：

def append_item(item, lst=[]):
    lst.append(item)
    return lst
print(append_item(1)) 
print(append_item(2))

在这个例子中，lst是可变的默认参数。第一次调用append_item(1)时，lst为空列表，添加1后返回[1]；第二次调用append_item(2)时，由于lst的默认值是在函数定义时就确定的，并且是可变对象，所以此时lst已经是[1]，再添加2后返回[1, 2]，这可能不是我们期望的结果。为了避免这种情况，可以将可变默认参数初始化为None，在函数内部再进行判断和初始化，例如：

def append_item(item, lst=None):
    if lst is None:
        lst = []
    lst.append(item)
    return lst
print(append_item(1)) 
print(append_item(2))

这样每次调用函数时，如果lst为None，就会创建一个新的空列表，避免了默认参数值被意外修改的问题。

2.3.3 可变参数

可变参数允许函数在调用时接收任意数量的参数。在函数定义中，使用星号*来表示可变参数。可变参数在函数内部会被组织成一个元组。例如：

def sum_numbers(*args):
    total = 0
    for num in args:
        total += num
    return total
result1 = sum_numbers(1, 2, 3)
result2 = sum_numbers(1, 2, 3, 4, 5)
print(result1) 
print(result2)

在这个例子中，*args就是可变参数，它可以接收任意数量的参数。调用sum_numbers(1, 2, 3)时，args是一个包含1、2、3的元组(1, 2, 3)；调用sum_numbers(1, 2, 3, 4, 5)时，args是一个包含1、2、3、4、5的元组(1, 2, 3, 4, 5)。函数通过遍历args元组，将其中的元素累加起来并返回结果。

2.3.4 关键字参数

关键字参数允许在调用函数时通过参数名来传递参数值，这样可以避免因为参数顺序错误而导致的问题，同时也使代码更加清晰易读。在函数定义中，使用双星号**来表示关键字参数。关键字参数在函数内部会被组织成一个字典。例如：

def print_info(name, age, **kwargs):
    print(f"Name: {name}, Age: {age}")
    for key, value in kwargs.items():
        print(f"{key}: {value}")
print_info("Tom", 25, city="New York", job="Engineer")

在这个例子中，**kwargs就是关键字参数。调用print_info函数时，除了传入必选参数name和age的值外，还传入了两个关键字参数city和job，它们在函数内部被组装成一个字典{'city': 'New York', 'job': 'Engineer'}。函数通过遍历这个字典，打印出每个关键字参数及其对应的值。

2.3.5 参数组合

在实际应用中，一个函数可以同时包含多种类型的参数，如必选参数、默认参数、可变参数和关键字参数。但需要注意参数的定义顺序，一般来说，参数定义的顺序应该是：必选参数、默认参数、可变参数、命名关键字参数（这里暂未详细介绍，可后续深入了解）、关键字参数。例如：

def complex_function(a, b=10, *args, **kwargs):
    print(f"a: {a}, b: {b}")
    print(f"args: {args}")
    print(f"kwargs: {kwargs}")
complex_function(1, 2, 3, 4, c=5, d=6)

在这个例子中，a是必选参数，b是默认参数，*args是可变参数，**kwargs是关键字参数。调用complex_function函数时，1被赋值给a，2被赋值给b（因为传入了第二个参数，所以b不使用默认值10），3和4被收集到args元组中，c=5和d=6被收集到kwargs字典中。

2.4 返回值

函数的返回值是函数执行完毕后返回给调用者的结果。通过return语句来实现返回值的传递，return语句后面可以跟任何类型的表达式，包括常量、变量、函数调用、表达式计算结果等。例如：

def square(x):
    return x * x
result = square(5)
print(result)

在这个例子中，square函数接收一个参数x，计算x的平方并通过return语句返回结果。调用square(5)时，函数返回25，并将其赋值给result变量，最后打印出result的值。

函数不仅可以返回单个值，还可以返回多个值。在 Python 中，返回多个值实际上是返回一个元组，只不过在接收返回值时可以使用多个变量进行解包。例如：

def divide_and_remainder(x, y):
    quotient = x // y
    remainder = x % y
    return quotient, remainder
q, r = divide_and_remainder(10, 3)
print(f"Quotient: {q}, Remainder: {r}")

在这个例子中，divide_and_remainder函数返回商和余数两个值，通过return quotient, remainder语句实现。调用该函数时，返回的元组(3, 1)被解包，分别赋值给q和r变量，最后打印出商和余数。

另外，如果函数没有return语句，或者return语句后面没有跟任何值，函数会默认返回None。例如：

def greet(name):
    print(f"Hello, {name}!")
result = greet("Alice")
print(result)

在这个例子中，greet函数没有return语句，所以调用它后返回None，并将None赋值给result变量，最后打印出result的值为None。

三、Python 函数高级特性

3.1 变量作用域

在 Python 中，变量的作用域决定了变量在程序中的可见性和生命周期。主要分为局部变量和全局变量。

局部变量：在函数内部定义的变量，其作用域仅限于函数内部。当函数执行结束时，局部变量会被销毁，释放内存空间。例如：

def local_variable_demo():
    x = 10  
    print(x)  
local_variable_demo()  
# print(x)  # 这行代码会报错，因为x是局部变量，在函数外部不可见

全局变量：在函数外部定义的变量，其作用域是整个程序（在定义之后的代码部分）。全局变量在程序运行期间一直存在，直到程序结束。例如：

y = 20  
def global_variable_demo():
    print(y)  
global_variable_demo()  
print(y)

当函数内部需要修改全局变量时，需要使用global关键字声明。例如：

count = 0  
def increment():
    global count
    count = count + 1
    return count
print(increment())  
print(increment())

在这个例子中，如果increment函数中没有使用global关键字声明count，直接执行count = count + 1会被认为是创建一个新的局部变量count，而不是修改全局变量count，从而导致错误。

3.2 匿名函数（lambda 函数）

匿名函数，也称为 lambda 函数，是一种没有函数名的小型函数。它可以在需要函数对象的地方直接使用，语法简洁紧凑。其语法形式为：

lambda 参数列表: 表达式

其中，参数列表可以包含多个参数，用逗号分隔；表达式是函数的返回值，不需要使用return语句。例如，定义一个计算两个数之和的 lambda 函数：

add = lambda a, b: a + b
result = add(3, 5)
print(result)

lambda 函数通常用于一些简单的函数场景，比如作为其他函数的参数。例如，使用sorted函数对列表中的字典按照某个键进行排序：

students = [
    {'name': 'Alice', 'age': 20},
    {'name': 'Bob', 'age': 18},
    {'name': 'Charlie', 'age': 22}
]
sorted_students = sorted(students, key=lambda student: student['age'])
print(sorted_students)

在这个例子中，lambda student: student['age']作为sorted函数的key参数，指定了按照age键对字典进行排序。

3.3 内置函数

Python 提供了丰富的内置函数，这些函数无需额外导入模块即可直接使用，大大提高了编程效率。以下列举一些常用的内置函数：

sum()：用于计算可迭代对象中所有元素的和。例如：

numbers = [1, 2, 3, 4, 5]
total = sum(numbers)
print(total)

max()：返回可迭代对象中的最大值，也可以比较多个参数的大小返回最大值。例如：

max_num = max([10, 5, 15, 8])
print(max_num)  
max_value = max(10, 20, 15)
print(max_value)

sorted()：对可迭代对象进行排序，返回一个新的已排序列表。例如：

nums = [5, 3, 8, 1, 2]
sorted_nums = sorted(nums)
print(sorted_nums)

还可以通过reverse=True参数实现降序排序，通过key参数指定排序的依据。例如，对字符串列表按照字符串长度进行排序：

words = ['apple', 'banana', 'cherry', 'date']
sorted_words = sorted(words, key=lambda word: len(word))
print(sorted_words)

3.4 装饰器

装饰器是 Python 中一种非常强大和灵活的特性，它本质上是一个函数，主要用于在不修改原函数代码的情况下，为原函数添加额外的功能。装饰器的作用就像是给函数 “穿衣服”，在不改变函数内部逻辑的前提下，给函数增加一些新的行为，比如日志记录、性能测试、权限验证等。

下面通过一个简单的代码示例来展示如何定义和使用装饰器：

def log_decorator(func):
    def wrapper(*args, **kwargs):
        print(f"开始调用函数 {func.__name__}")
        result = func(*args, **kwargs)
        print(f"函数 {func.__name__} 调用结束")
        return result
    return wrapper
@log_decorator
def add(a, b):
    return a + b
sum_result = add(3, 5)
print(sum_result)

在上述代码中，首先定义了一个装饰器函数log_decorator，它接受一个函数func作为参数。在log_decorator内部，又定义了一个嵌套函数wrapper，wrapper函数中先打印开始调用函数的日志信息，然后调用原函数func，并将其返回值保存到result变量中，最后打印函数调用结束的日志信息，再返回result。log_decorator函数最后返回wrapper函数对象。

接下来，使用@log_decorator语法将log_decorator装饰器应用到add函数上，这相当于执行了add = log_decorator(add)。当调用add(3, 5)时，实际上调用的是wrapper函数，从而实现了在add函数执行前后添加日志记录的功能。

3.5 生成器

生成器是一种特殊的迭代器，它可以动态地生成数据，而不是一次性生成所有数据并存储在内存中，这使得生成器在处理大数据集时非常高效，能够节省大量内存。

在 Python 中，有两种常见的创建生成器的方式：

生成器表达式：类似于列表推导式，但使用圆括号而不是方括号。例如，创建一个生成 1 到 10 的平方数的生成器：

squares_generator = (i ** 2 for i in range(1, 11))
for square in squares_generator:
    print(square)

生成器函数：在函数定义中使用yield关键字。当函数执行到yield语句时，会暂停函数的执行，并返回yield后面的值，下次调用时会从暂停的位置继续执行。例如，定义一个生成斐波那契数列的生成器函数：

def fibonacci_generator():
    a, b = 0, 1
    while True:
        yield a
        a, b = b, a + b
fib = fibonacci_generator()
for _ in range(10):
    print(next(fib))

在这个例子中，fibonacci_generator函数会不断生成斐波那契数列的下一个数，由于使用了生成器，不会一次性生成所有的斐波那契数，而是按需生成，大大节省了内存。

3.6 偏函数

偏函数（Partial Function）是指通过固定函数的某些参数，从而创建一个新的函数。新函数调用时，只需传入剩余的参数即可。偏函数可以简化函数的调用，提高代码的可读性和复用性。

在 Python 中，可以使用functools模块的partial函数来创建偏函数。例如，使用int函数将字符串转换为指定进制的整数，默认是十进制：

num = int('1010', base=2)
print(num)

如果经常需要将二进制字符串转换为整数，可以创建一个偏函数：

from functools import partial
bin_to_int = partial(int, base=2)
num = bin_to_int('1010')
print(num)

在这个例子中，partial(int, base=2)创建了一个新的函数bin_to_int，它固定了int函数的base参数为 2，调用bin_to_int时，只需要传入要转换的字符串即可，使用起来更加方便。

3.7 闭包

闭包是指在一个函数内部定义的函数，并且内部函数引用了外部函数的变量，当外部函数返回内部函数后，即使外部函数已经执行完毕，内部函数仍然可以访问并操作外部函数的变量。闭包的形成需要满足以下三个条件：

函数嵌套：在一个函数内部定义另一个函数。

内部函数引用外部函数的变量：内部函数使用了外部函数作用域中的变量。

外部函数返回内部函数：将内部函数作为返回值返回。

下面通过一个简单的代码示例来展示闭包的使用：

def outer_function(x):
    def inner_function(y):
        return x + y
    return inner_function
add_five = outer_function(5)
result = add_five(3)
print(result)

在上述代码中，outer_function是外部函数，它接受一个参数x。在outer_function内部定义了inner_function，inner_function接受一个参数y，并且在其内部使用了外部函数outer_function的变量x，最后outer_function返回inner_function。当调用outer_function(5)时，返回了inner_function，并将其赋值给add_five，此时add_five就形成了一个闭包。调用add_five(3)时，inner_function仍然可以访问并使用outer_function中定义的x变量（值为 5），所以最终返回5 + 3 = 8。

闭包的一个常见应用场景是实现函数的状态保持。例如，实现一个计数器：

def counter():
    count = 0
    def inner():
        nonlocal count
        count = count + 1
        return count
    return inner
my_counter = counter()
print(my_counter())  
print(my_counter())  
print(my_counter())

在这个例子中，counter函数返回的inner函数形成了闭包，inner函数可以访问并修改counter函数中的count变量，每次调用my_counter，count变量的值都会增加 1，从而实现了一个简单的计数器功能。

3.8 递归

递归是指在函数的定义中调用函数自身的方法。递归函数通常用于解决可以分解为相同类型的子问题，并且子问题的规模比原问题小的问题。例如，经典的阶乘计算问题：

def factorial(n):
    if n == 0 or n == 1:
        return 1
    else:
        return n * factorial(n - 1)
result = factorial(5)
print(result)

在这个factorial函数中，当n为 0 或 1 时，直接返回 1，这是递归的终止条件。否则，通过调用factorial(n - 1)来计算(n - 1)的阶乘，然后再乘以n得到n的阶乘。

使用递归时需要特别注意设置合理的终止条件，否则函数会无限递归调用，导致栈溢出错误。例如，如果在factorial函数中没有if n == 0 or n == 1:这个终止条件，函数会一直调用自身，最终导致程序崩溃。此外，递归虽然代码简洁，但在某些情况下，由于函数调用的开销，可能会导致性能问题，此时可以考虑使用迭代等其他方法来替代递归。

四、Python 函数在实际项目中的应用

4.1 数据处理与分析

在数据处理与分析领域，Python 函数发挥着至关重要的作用。以处理一份电商销售数据为例，假设我们有一个包含订单信息的 CSV 文件，每一行数据包含订单编号、客户 ID、购买金额、购买日期等字段。

首先，我们可以定义一个函数来读取 CSV 文件数据：

import csv
def read_csv_data(file_path):
    data = []
    with open(file_path, 'r', encoding='utf-8') as csvfile:
        reader = csv.DictReader(csvfile)
        for row in reader:
            data.append(dict(row))
    return data
sales_data = read_csv_data('sales_data.csv')

这个read_csv_data函数使用csv模块的DictReader来读取 CSV 文件，并将每一行数据转换为字典形式，存储在列表data中返回。

接着，我们可以定义函数来统计总销售额、每个客户的平均购买金额等信息：

def calculate_total_sales(data):
    total_sales = 0
    for order in data:
        total_sales += float(order['购买金额'])
    return total_sales
def calculate_average_purchase_per_customer(data):
    customer_purchases = {}
    for order in data:
        customer_id = order['客户ID']
        purchase_amount = float(order['购买金额'])
        if customer_id not in customer_purchases:
            customer_purchases[customer_id] = []
        customer_purchases[customer_id].append(purchase_amount)
    average_purchases = {}
    for customer_id, purchases in customer_purchases.items():
        average_purchases[customer_id] = sum(purchases) / len(purchases)
    return average_purchases
total_sales = calculate_total_sales(sales_data)
average_purchases = calculate_average_purchase_per_customer(sales_data)
print(f"总销售额: {total_sales}")
print(f"每个客户的平均购买金额: {average_purchases}")

在上述代码中，calculate_total_sales函数遍历订单数据，累加每个订单的购买金额，从而得到总销售额。calculate_average_purchase_per_customer函数首先将每个客户的购买金额分组存储在customer_purchases字典中，然后计算每个客户的平均购买金额，存储在average_purchases字典中返回。通过这些函数，我们能够高效地对销售数据进行处理和分析，提取出有价值的信息。

4.2 机器学习与人工智能

在机器学习和人工智能领域，Python 函数是构建模型和进行预测的核心工具。以一个简单的线性回归模型为例，我们使用scikit - learn库来实现。

首先，生成一些模拟数据：

import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
# 生成模拟数据
np.random.seed(0)
X = 2 * np.random.rand(100, 1)
y = 4 + 3 * X + np.random.randn(100, 1)

这里使用numpy库生成了 100 个样本，每个样本有一个特征X和对应的目标值y。

然后，定义函数来划分数据集、训练模型和进行预测：

def split_data(X, y):
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
    return X_train, X_test, y_train, y_test
def train_model(X_train, y_train):
    model = LinearRegression()
    model.fit(X_train, y_train)
    return model
def predict_and_evaluate(model, X_test, y_test):
    y_pred = model.predict(X_test)
    mse = mean_squared_error(y_test, y_pred)
    return y_pred, mse
X_train, X_test, y_train, y_test = split_data(X, y)
model = train_model(X_train, y_train)
y_pred, mse = predict_and_evaluate(model, X_test, y_test)
print(f"均方误差: {mse}")

split_data函数使用train_test_split将数据集划分为训练集和测试集；train_model函数创建一个线性回归模型并在训练集上进行训练；predict_and_evaluate函数使用训练好的模型对测试集进行预测，并计算均方误差来评估模型的性能。通过这些函数的协作，我们完成了从数据处理到模型训练和评估的整个机器学习流程。

4.3 Web 开发

在 Web 开发中，Python 函数常用于处理 HTTP 请求和定义路由。以 Flask 框架为例，它是一个轻量级的 Web 应用框架，使用 Python 函数来构建 Web 应用非常方便。

首先，安装 Flask 并创建一个简单的 Flask 应用：

from flask import Flask, request, jsonify
app = Flask(__name__)

然后，定义一个函数作为路由处理函数，用于处理用户登录请求：

@app.route('/login', methods=['POST'])
def login():
    data = request.get_json()
    username = data.get('username')
    password = data.get('password')
    # 这里可以添加实际的用户验证逻辑，例如查询数据库
    if username == 'admin' and password == '123456':
        return jsonify({'message': '登录成功'}), 200
    else:
        return jsonify({'message': '用户名或密码错误'}), 401

在上述代码中，@app.route('/login', methods=['POST'])是一个装饰器，它将login函数注册为处理/login路径的 POST 请求的路由函数。当客户端发送 POST 请求到/login时，login函数会被调用，它从请求中获取 JSON 数据，提取用户名和密码，并进行简单的验证，最后返回相应的响应信息。通过这种方式，Python 函数在 Web 开发中实现了灵活的请求处理和路由定义，为构建功能丰富的 Web 应用提供了基础。

Python 函数作为 Python 编程的核心元素之一，其重要性不言而喻。从基础的函数定义、参数传递和返回值处理，到高级的变量作用域、匿名函数、装饰器、生成器等特性，Python 函数为开发者提供了丰富且灵活的编程工具。在实际项目中，无论是数据处理与分析、机器学习与人工智能，还是 Web 开发等领域，Python 函数都发挥着关键作用，帮助开发者高效地解决各种复杂问题，实现项目的功能需求。

对于初学者来说，掌握 Python 函数的基本概念和使用方法是踏入 Python 编程世界的重要一步。而对于有一定经验的开发者，深入研究函数的高级特性，如装饰器在日志记录、权限验证等方面的应用，生成器在处理大数据集时的内存优化技巧，闭包在函数状态保持和代码封装上的独特优势，以及递归在解决特定算法问题时的巧妙运用等，能够进一步提升编程能力，编写出更加简洁、高效、可维护的代码。

动动小手 !!!

来说两句吧