ExtremITA Camoscio 7b

Name: ExtremITA Camoscio 7b
Author: sag-uniroma2

7.0B

1 language

llama

sag-uniroma2

Language Model

OTHER

7B params

New

97 downloads

Early-stage

Try on Hugging Face Add to Compare

Edge AI:

Mobile

Laptop

Server

16GB+ RAM

Mobile

Laptop

Server

Quick Summary

ExtremITA Camoscio 7 bilion parameters This is the base model trained on Italian instructions, a sibling of Alpaca.

Device Compatibility

Mobile

4-6GB RAM

Laptop

16GB RAM

Server

GPU

Minimum Recommended

7GB+ RAM

Code Examples

Usagepythontransformers

from transformers import LLaMATokenizer, LLaMAForCausalLM, GenerationConfig
import torch

tokenizer = LLaMATokenizer.from_pretrained("yahma/llama-7b-hf")
model = LLaMAForCausalLM.from_pretrained(
    "sag-uniroma2/extremITA-Camoscio-7b",
    load_in_8bit=True,
    device_map="auto",
)

generation_config = GenerationConfig(
  temperature=0.2,
  top_p=0.75,
  top_k=40,
  num_beams=4,
)

prompts = [
  "Riassumi la storia di Pinocchio",
  "Scrivi un programma che stampa i numeri da 1 a 100. Ma per i multipli \
  di tre stampa 'Fizz' al posto del numero e per i multipli di cinque \
  stampa 'Buzz'. Per i numeri che sono multipli sia di tre che di cinque \
  stampa 'FizzBuzz'."
]

inputs = tokenizer(prompts, return_tensors="pt", padding=True, \
                  truncation=True).to(model.device)

with torch.no_grad():
  gen_outputs = model.generate(
    **inputs,
    generation_config=generation_config,
    return_dict_in_generate=True,
    output_scores=True,
  )

  for i in range(len(gen_outputs[0])):
    output = tokenizer.decode(gen_outputs[0][i], skip_special_tokens=True)
    print(output)

Usagepythontransformers

from transformers import LLaMATokenizer, LLaMAForCausalLM, GenerationConfig
import torch

tokenizer = LLaMATokenizer.from_pretrained("yahma/llama-7b-hf")
model = LLaMAForCausalLM.from_pretrained(
    "sag-uniroma2/extremITA-Camoscio-7b",
    load_in_8bit=True,
    device_map="auto",
)

generation_config = GenerationConfig(
  temperature=0.2,
  top_p=0.75,
  top_k=40,
  num_beams=4,
)

prompts = [
  "Riassumi la storia di Pinocchio",
  "Scrivi un programma che stampa i numeri da 1 a 100. Ma per i multipli \
  di tre stampa 'Fizz' al posto del numero e per i multipli di cinque \
  stampa 'Buzz'. Per i numeri che sono multipli sia di tre che di cinque \
  stampa 'FizzBuzz'."
]

inputs = tokenizer(prompts, return_tensors="pt", padding=True, \
                  truncation=True).to(model.device)

with torch.no_grad():
  gen_outputs = model.generate(
    **inputs,
    generation_config=generation_config,
    return_dict_in_generate=True,
    output_scores=True,
  )

  for i in range(len(gen_outputs[0])):
    output = tokenizer.decode(gen_outputs[0][i], skip_special_tokens=True)
    print(output)

Usagepythontransformers

from transformers import LLaMATokenizer, LLaMAForCausalLM, GenerationConfig
import torch

tokenizer = LLaMATokenizer.from_pretrained("yahma/llama-7b-hf")
model = LLaMAForCausalLM.from_pretrained(
    "sag-uniroma2/extremITA-Camoscio-7b",
    load_in_8bit=True,
    device_map="auto",
)

generation_config = GenerationConfig(
  temperature=0.2,
  top_p=0.75,
  top_k=40,
  num_beams=4,
)

prompts = [
  "Riassumi la storia di Pinocchio",
  "Scrivi un programma che stampa i numeri da 1 a 100. Ma per i multipli \
  di tre stampa 'Fizz' al posto del numero e per i multipli di cinque \
  stampa 'Buzz'. Per i numeri che sono multipli sia di tre che di cinque \
  stampa 'FizzBuzz'."
]

inputs = tokenizer(prompts, return_tensors="pt", padding=True, \
                  truncation=True).to(model.device)

with torch.no_grad():
  gen_outputs = model.generate(
    **inputs,
    generation_config=generation_config,
    return_dict_in_generate=True,
    output_scores=True,
  )

  for i in range(len(gen_outputs[0])):
    output = tokenizer.decode(gen_outputs[0][i], skip_special_tokens=True)
    print(output)

Usagepythontransformers

from transformers import LLaMATokenizer, LLaMAForCausalLM, GenerationConfig
import torch

tokenizer = LLaMATokenizer.from_pretrained("yahma/llama-7b-hf")
model = LLaMAForCausalLM.from_pretrained(
    "sag-uniroma2/extremITA-Camoscio-7b",
    load_in_8bit=True,
    device_map="auto",
)

generation_config = GenerationConfig(
  temperature=0.2,
  top_p=0.75,
  top_k=40,
  num_beams=4,
)

prompts = [
  "Riassumi la storia di Pinocchio",
  "Scrivi un programma che stampa i numeri da 1 a 100. Ma per i multipli \
  di tre stampa 'Fizz' al posto del numero e per i multipli di cinque \
  stampa 'Buzz'. Per i numeri che sono multipli sia di tre che di cinque \
  stampa 'FizzBuzz'."
]

inputs = tokenizer(prompts, return_tensors="pt", padding=True, \
                  truncation=True).to(model.device)

with torch.no_grad():
  gen_outputs = model.generate(
    **inputs,
    generation_config=generation_config,
    return_dict_in_generate=True,
    output_scores=True,
  )

  for i in range(len(gen_outputs[0])):
    output = tokenizer.decode(gen_outputs[0][i], skip_special_tokens=True)
    print(output)

Usagepythontransformers

from transformers import LLaMATokenizer, LLaMAForCausalLM, GenerationConfig
import torch

tokenizer = LLaMATokenizer.from_pretrained("yahma/llama-7b-hf")
model = LLaMAForCausalLM.from_pretrained(
    "sag-uniroma2/extremITA-Camoscio-7b",
    load_in_8bit=True,
    device_map="auto",
)

generation_config = GenerationConfig(
  temperature=0.2,
  top_p=0.75,
  top_k=40,
  num_beams=4,
)

prompts = [
  "Riassumi la storia di Pinocchio",
  "Scrivi un programma che stampa i numeri da 1 a 100. Ma per i multipli \
  di tre stampa 'Fizz' al posto del numero e per i multipli di cinque \
  stampa 'Buzz'. Per i numeri che sono multipli sia di tre che di cinque \
  stampa 'FizzBuzz'."
]

inputs = tokenizer(prompts, return_tensors="pt", padding=True, \
                  truncation=True).to(model.device)

with torch.no_grad():
  gen_outputs = model.generate(
    **inputs,
    generation_config=generation_config,
    return_dict_in_generate=True,
    output_scores=True,
  )

  for i in range(len(gen_outputs[0])):
    output = tokenizer.decode(gen_outputs[0][i], skip_special_tokens=True)
    print(output)

Usagepythontransformers

from transformers import LLaMATokenizer, LLaMAForCausalLM, GenerationConfig
import torch

tokenizer = LLaMATokenizer.from_pretrained("yahma/llama-7b-hf")
model = LLaMAForCausalLM.from_pretrained(
    "sag-uniroma2/extremITA-Camoscio-7b",
    load_in_8bit=True,
    device_map="auto",
)

generation_config = GenerationConfig(
  temperature=0.2,
  top_p=0.75,
  top_k=40,
  num_beams=4,
)

prompts = [
  "Riassumi la storia di Pinocchio",
  "Scrivi un programma che stampa i numeri da 1 a 100. Ma per i multipli \
  di tre stampa 'Fizz' al posto del numero e per i multipli di cinque \
  stampa 'Buzz'. Per i numeri che sono multipli sia di tre che di cinque \
  stampa 'FizzBuzz'."
]

inputs = tokenizer(prompts, return_tensors="pt", padding=True, \
                  truncation=True).to(model.device)

with torch.no_grad():
  gen_outputs = model.generate(
    **inputs,
    generation_config=generation_config,
    return_dict_in_generate=True,
    output_scores=True,
  )

  for i in range(len(gen_outputs[0])):
    output = tokenizer.decode(gen_outputs[0][i], skip_special_tokens=True)
    print(output)

Usagepythontransformers

from transformers import LLaMATokenizer, LLaMAForCausalLM, GenerationConfig
import torch

tokenizer = LLaMATokenizer.from_pretrained("yahma/llama-7b-hf")
model = LLaMAForCausalLM.from_pretrained(
    "sag-uniroma2/extremITA-Camoscio-7b",
    load_in_8bit=True,
    device_map="auto",
)

generation_config = GenerationConfig(
  temperature=0.2,
  top_p=0.75,
  top_k=40,
  num_beams=4,
)

prompts = [
  "Riassumi la storia di Pinocchio",
  "Scrivi un programma che stampa i numeri da 1 a 100. Ma per i multipli \
  di tre stampa 'Fizz' al posto del numero e per i multipli di cinque \
  stampa 'Buzz'. Per i numeri che sono multipli sia di tre che di cinque \
  stampa 'FizzBuzz'."
]

inputs = tokenizer(prompts, return_tensors="pt", padding=True, \
                  truncation=True).to(model.device)

with torch.no_grad():
  gen_outputs = model.generate(
    **inputs,
    generation_config=generation_config,
    return_dict_in_generate=True,
    output_scores=True,
  )

  for i in range(len(gen_outputs[0])):
    output = tokenizer.decode(gen_outputs[0][i], skip_special_tokens=True)
    print(output)

Deploy This Model

Production-ready deployment in minutes

Together.ai

Instant API access to this model

Fastest API

Production-ready inference API. Start free, scale to millions.

Try Free API

Replicate

One-click model deployment

Easiest Setup

Run models in the cloud with simple API. No DevOps required.

Deploy Now

Disclosure: We may earn a commission from these partners. This helps keep LLMYourWay free.